Инструмент удаления URL. Почему страницы исключены из поиска. Почему закрытые и удаленные страницы есть в поиске

Практически каждый вебмастер, особенно на начальном этапе создания проекта, сталкивался с необходимостью удаления страниц веб-сайта из индекса поисковиков. Даже не взирая на то, что процедура, на первый взгляд, довольно простая, у многих все же возникают трудности.

Порой владельцу веб-ресурса приходиться скрывать документ от поисковиков по следующим причинам:

  • сайт находится в стадии разработки и попал в выдачу совершенно случайно;
  • контент на странице больше неактуален;
  • документ дублирует другую страницу, которая уже есть на сайте;
  • в индекс попали служебные страницы, где размещены личные данные клиентов.

Во избежание таких случаев, сегодня мы поговорим о 4 эффективных способах удаления страницы из индекса поисковых систем.

Как закрыть страницу от поисковиков с помощью панели вебмастера?

Данный метод закрытия доступа к страницам вашего сайта для поисковых роботов считается одним из самых легких. Причем этот инструмент идеально подходит для тех случаев, когда определенные URL нужно удалить срочно.

Yandex

Для этого вам понадобится сервис Яндекс.Вебмастер . Как добавлять сайт на эту площадку для ускорения индексации, мы рассказывали . Перейдите по ссылке https://webmaster.yandex.ru/tools/del-url/ и добавьте в соответствующее поле адрес конкретной страницы, затем нажмите «Удалить».


С большой долей вероятности Yandex попросит вас ускорить процесс удаления страницы из базы данных системы. Для этого вам нужно предварительно закрыть ее от ботов через файл либо мета-тег robots, или сделать так, чтобы сервер выдавал ошибку 404. Про то, как это сделать, мы поговорим чуть позже.

Понадобится несколько часов или даже дней, прежде чем боты удалят документ из базы. Это связано с тем, что системе нужно будет отслеживать его статус и убедиться, что он уже не изменится.

Google

Авторизируйтесь на площадке Google Webmaster Tools . Предварительно добавьте свой сайт в индекс, если вы еще этого не сделали. Затем найдите там вкладку «Индекс Google», и под ним «Удалить URL адреса». В появившемся окне выберите опцию создания запроса на удаление, и укажите в поле адрес удаляемого документа. Затем отправьте запрос.

Ошибка 404 на сервере

Наверняка каждый пользователь, ища нужную информацию в Интернете, попадал на страницу, где выдавало ошибку 404 – «Страница не найдена» . Это значит, что искомый по вашему запросу документ был удален с ресурса.

Сделать это вебмастер может в панели управления сайтом, например, . Для поисковиков это означает, что вы настраиваете ответ сервер этой страницы так, чтобы на определенном адресе появился код 404 not found . И когда робот снова посетит данный URL, сервер сообщит ему, что страницы больше нет. Это дает понять поисковикам, что документ удален с сайта, и они уберут его из поисковой выдачи, чтобы посетители не заходили на него и не читали ошибку 404.

К характерным особенностям данного способа можно отнести:

  1. Простую настройку всего за несколько кликов.
  2. Полное исчезновение документа из веб-ресурса. Из-за этого не рекомендуется использовать данный метод в случае, когда из индекса нужно убрать служебную страницу (конфиденциальную информацию клиентов и пр.).
  3. Также стоит прибегнуть к другому варианту скрытия страницы, например, 301 редирект, если на нее ведут входящие ссылки.

Важно! Страница выпадает из поискового индекса не за счет ее удаления с ресурса, а за счет дальнейшей переиндексации. Поэтому для ее удаления вам придется ждать около 2ух недель, пока бот вновь не посетит ресурс.

Для вебмастеров такой метод является одним из самых удобных, а вот посетителю ошибка 404 может не понравиться, и есть риск того, что пользователь, увидев ее, перестанет заходить на сайт. Но выход есть и из этой ситуации.

На заметку. Очень часто сайтостроители занимаются интересным оформлением страницы, на которой вылетает ошибка 404 not found. Они выкладывают туда полезную информацию и предлагают посетить другие страницы ресурса, которые непременно привлекут внимание посетителя. Так вы сделаете эту страницу более привлекательной для пользователя, что непременно положительно скажется на его рейтинге и узнаваемости.

Изменение файла robots.txt

Еще один распространенный метод, к которому прибегают вебмастера. Он позволяет скрыть отдельные документы и целые разделы. В файле robots вы можете не только запретить, но и разрешить поисковым ботам индексировать сайт или определенные страницы. Подобные команды обеспечиваются применением директивы Disallow.

Для скрытия страницы от поисковых машин, вам нужно получить доступ к корневой папке сайта. В документе robots.txt в основном содержатся 2 строки:

  1. User- agent. Здесь указывается имя робота определенного поисковика, которому вы запрещаете сканировать страницу, или же прописывается код User-agent: * , применимый сразу для всех ботов.
  2. Disallow. Тут прописывается URL удаляемой страницы.

Вместе они создают команду для поисковых машин, касающуюся указанного URL. Если требуется, вы можете в одном файле скрыть сразу несколько документов на одном ресурсе, и они никак не будут влиять друг на друга.

Например, вот так мы укажем всем поисковым роботам, чтобы они не индексировали страницы index и password на нашем сайте

User-agent: * Disallow: /index Disallow: /password

Когда вы пропишите данную команду, нужно будет ждать следующей индексации. Вам стоит знать, что все изменения в файле robots несут для поисковиков рекомендательный характер, поэтому не удивляйтесь, если объект по-прежнему останется в индексе, но с пометкой о скрытии через robots.txt. Но если через определенный промежуток времени статус документа не изменится, он все же будет удален из базы данных поисковых систем.

Важно! Если на удаленных страницах есть внешние ссылки, то они останутся доступными для перехода именно по ним. Это связано с тем, что команды в файле robots не удаляют объект из поисковой выдачи фактически, а лишь скрывают его из результатов.

Мета-тег Robots

Если не вдаваться в подробности, то этот способ аналогичен вышеуказанному, вот только все команды прописываются в html-коде сайта внутри тегов head:

Все изменения также будут произведены после индексации. Преимущество использования мета-тега robots заключается в том, что посредством него из поиска можно удалить множество URL без необходимости изменения самого файла robots. Данный способ идеально подходит для начинающих сайтостроителей, которые постепенно создают новые страницы.

Также это отличный вариант тогда, когда вам нужно закрыть страницу от индекса Яндекса, но при этом оставить ее доступной в Google. Или же когда вы хотите удалить объект из поиска, но оставить информацию доступной на самом сайте.

Пример закрытия URL только для Яндекса:

Важно! Прописывание мета-тегов отличается от изменения robots.txt тем, что с их помощью вы сможете удалить объект из поиска, даже если на него ведут внешние ссылки. Этому способствует мета-тег noindex. Однако если ваш сайт создан не на базе WordPress, то процедура будет более сложной. Дело в том, что в WP есть специальный плагин Yoast SEO, который и позволяет удалять страницы мета-тегами.

Заключение

Если у вас вдруг появилась необходимость удалить отдельную страницу своего сайта из поискового индекса, вы с легкостью можете воспользоваться всеми указанными в данной статье методами. Выбирайте тот, который для вас более удобный, но при этом учитывайте характерные особенности каждого из них. Вообще, если вы хотите закрыть документ в максимально кратчайшие сроки, используйте сразу несколько вариантов.

Страницы сайта могут пропадать из результатов поиска Яндекса по нескольким причинам:

  • Ошибка при загрузке или обработке страницы роботом - если ответ сервера содержал HTTP-статус 3XX, 4XX или 5XX. Выявить ошибку поможет инструмент Проверка ответа сервера .
  • Индексирование страницы запрещено в файле robots.txt или с помощью метатега с директивой noindex .
  • Страница перенаправляет робота на другие страницы.
  • Страница дублирует содержание другой страницы .
  • Страница не является канонической .

Робот продолжает посещать исключенные из поиска страницы, а специальный алгоритм проверяет вероятность их показа в выдаче перед каждым обновлением поисковой базы. Таким образом, страница может появится в поиске в течение двух недель после того, как робот узнает о ее изменении.

Если вы устранили причину удаления страницы, отправьте страницу на переобход . Так вы сообщите роботу об изменениях.

Вопросы и ответы про исключенные из поиска страницы

На странице правильно заполнены метатеги Description, Keywords и элемент title, страница соответствует всем требованиям. Почему она не в поиске?

Алгоритм проверяет на страницах сайта не только наличие всех необходимых тегов, но и уникальность, полноту материала, его востребованность и актуальность, а также многие другие факторы. При этом метатегам стоит уделять внимание. Например, метатег Description и элемент title могут создаваться автоматически, повторять друг друга.

Если на сайте большое количество практически одинаковых товаров, которые отличаются только цветом, размером или конфигурацией, они тоже могут не попасть в поиск. В этот список можно также добавить страницы пагинации, подбора товара или сравнений, страницы-картинки, на которых совсем нет текстового контента.

Страницы, которые отображаются как исключенные, в браузере открываются нормально. Что это значит?

Это может происходить по нескольким причинам:

  • Заголовки, которые запрашивает робот у сервера, отличаются от заголовков, запрашиваемых браузером. Поэтому исключенные страницы могут открываться в браузере корректно.
  • Если страница исключена из поиска из-за ошибки при ее загрузке, она исчезнет из списка исключенных только в том случае, если при новом обращении робота станет доступна. Проверьте ответ сервера по интересеющему вас URL. Если ответ содержит HTTP-статус 200 OK, дождитесь нового посещения робота.

В списке «Исключенные страницы» показываются страницы, которых уже нет на сайте. Как их удалить?

В разделе Страницы в поиске , в списке Исключенные страницы , отображаются страницы, к которым робот обращался, но не проиндексировал (это могут быть уже несуществующие страницы, если ранее они были известны роботу).

Страница удаляется из списка исключенных, если:

  • она недоступна для робота в течение некоторого времени;
  • на нее не ссылаются другие страницы сайта и внешние источники.

Наличие и количество исключенных страниц в сервисе не должно влиять на положение сайта в результатах поиска.

Многие вебмастера рано или поздно сталкиваются с необходимостью удалить из поисковой системы страницы сайта, которые попали туда по ошибке, перестали быть актуальными, являются дублями или содержат конфиденциальную информацию клиентов (причины могут быть разные). Яркий пример тому уже нашумевшая ситуация с Мегафоном, смс-ки пользователей которого проиндексировал Яндекс, ситуация с интернет-магазинами, когда в поиске можно было найти личную информацию клиентов и подробности их заказов, ситуация с банками и транспортными компаниями и так далее…

Не будем касаться в этой статье причин описанных выше казусов, а рассмотрим, как удалить из Яндекса или Google ненужные страницы. Подразумевается, что они пренадлежат вашему сайту, в противном случае необходимо связываться с владельцем нужного ресурса с соответствующей просьбой.

5 способов удаления страниц из поисковых результатов

1. 404 ошибка

Один из простых способов удаления страницы из поиска это удаление её со своего сайта, с условием, что в дальнейшем, при обращении по старому адресу, сервер выдавал 404-ую ошибку, означающую, что страницы не существует.

HTTP/1.1 404 Not Found

В данном случае придётся подождать, пока робот ещё раз не зайдёт на страницу. Иногда это занимает значительное время, в зависимости от того, как она попала в индекс.

Если страница при удалении её из поиска должна существовать на сайте, то данный способ не подходит, лучше использовать другие, представленные ниже.

2. Файл robots.txt

Очень популярный метод закрыть от индексации целые разделы или отдельные страницы это использование корневого файла robots.txt. Существует множество мануалов, как правильно настроить этот файл. Здесь приведём лишь несколько примеров.

Закрыть раздел администраторской панели от попадания её в индекс поисковиков:

User-Agent: *
Disallow: /admin/

Закрыть определенную страницу от индексации:

User-Agent: *
Disallow: /my_emails.html # закрытие страницы my_emails.html
Disallow: /search.php?q=* # закрытие страниц поиска

В случае с robots.txt тоже придётся ждать переиндексации, пока робот не выкинет из индекса страницу или целый раздел. При этом, некоторые страницы могут остаться в индексе, если причиной их попадания туда было несколько внешних ссылок.

Данный метод неудобно использовать в случае необходимости удаления разных страниц из разных разделов, если невозможно составить общий шаблон для директивы Disallow в robots.txt.

3. Мета-тег robots

Это альтернатива предыдущего метода, только правило задаётся непосредственно в HTML -коде страницы, между тегами .

Удобство мета-тега в том, что его можно добавить на все нужные страницы (с помощью системы управления), попадание которых нежелательно в индекс поисковика, оставляя файл robots.txt при этом простым и понятным. Недостаток данного метода лишь в том, что его сложно внедрить для динамического сайта, использующего один шаблон header.tpl, если отсутствуют специальные навыки.

4. Заголовки X-Robots-Tag

Данный метод используют зарубежные поисковые системы, в том числе Google, как альтернативу предыдущему методу. У Яндекса пока нет официальной информации о поддержке этого http-заголовка, но возможно, в ближайшее время будет.

Суть его использования очень похожа на мета-тег robots, за исключением того, что запись должна находиться в http-заголовках, которые не видны в коде страницы.

X-Robots-Tag: noindex, nofollow

В некоторых, часто неэтичных, случаях его использование очень удобно (например, при обмене ссылками и скрытии страницы линкопомойки).

5. Ручное удаление из панели для вебмастеров

Наконец последний, и самый быстрый способ удаления страниц из индекса – это их ручное удаление.

Единственное условие для ручного удаления страниц – они должны быть закрыты от робота предыдущими методами (в robots.txt, мета-теге или 404-ой ошибкой). Замечено, что Google обрабатывает запросы на удаление в течение нескольких часов, в Яндексе придётся подождать следующего апдейта. Используйте этот метод, если вам надо срочно удалить небольшое количество страниц из поиска.


Улучшение юзабилити 404-ых страниц уменьшает показатель отказов. В статье приведены несколько советов, которые помогут сделать 404-ую страницу более эффективной.

Всё о файле robots.txt
Для тех, кто ещё не сталкивался с настройкой файла robots.txt, данный ресурс будет полезной отправной точкой. Здесь собрано много примеров и другой полезной информации.

Яндекс: Использование robots.txt
Официальные примеры использования файла robots.txt от Яндекса. Также там представлены учитываемые Яндексом директивы и другие советы.


Пример использования HTTP -заголовка X-Robots-Tag в Apache.

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подписаться

Любому вебмастеру рано или поздно может понадобится удалить сайт из поисковика , или удалить одну страницу . Несмотря на то что дело может показаться простым, возникают некоторые сложности. К примеру, при нажатии на кнопку «удалить» в панели вебмастера, Яндекс может ответить «Нет оснований для удаления». Но только вебмастеру подвластна судьба страниц.

Давайте разбираться.

Как удалить из поиска ненужные страницы?

Для начала разберем как сайт попадает в поиск.

Допустим, вы создали свой сайт, заполнили его контентом и сделали некоторую оптимизацию. Вы ждете, когда придет робот поисковика и просканирует ваш сайт. Сканирование сайта подразумевает, что робот посмотрит ваш сайт и запомнит про что он, грубо говоря. После того как сайт просканирован, он попадает в индекс. Иными словами, просканированный сайт попадает в выдачу поисковиков.

Для управления индексацей страниц вашего сайта, вам необходимо соблюсти обязательные условия:

  1. Вы зарегистрировали сайт в Яндекс.Вебмастер и имеете доступ к панели вебмастера;
  2. На сайте есть файл robot.txt.

Заходим в Яндекс.Вебмастер. Для этого нужно ввести в поиске Яндекс Вебмастер или перейти по прямой ссылке .

Выбираем вкладку «Мои сайты». Если у вас он не один, отобразиться список ваших сайтов, тут выбираем сайт, который хотите удалить из поиска

В слайдбаре, который находится справа, находим ссылку «Удалить URL».

Вводим в форме ссылку на страницу и нажимаем «удалить». Яндекс думает, что вы знаете точный адрес страницы, которую хотите удалить. Предполагается, что произойдет удаление введенной вами страницы и все. Но это срабатывает далеко не всегда. Чаще всего это происходит из-за того, что url введенный в форме не соответствует адресу страницы, которую вы хотите удалить из поиска Яндекса .

Как узнать точный URL страницы?

Для того чтобы узнать адреса всех проиндексированных страниц сайта в Яндексе есть специальная команда «host». В строке поиска нужно написать «host:site.ru». Site – здесь пишем адрес вашего сайта. После выполнения данной команды выводится список всех проиндексированных страниц введенного сайта.

А что если страниц в выдаче больше, чем есть на сайте?

Если в выдаче страниц больше, чем у вас на сайте, значит, некоторые страницы имеют дубли – это одна из самых распространенных причин. Для удаления таких страниц есть два решения:

  • Закрыть в robots.txt и Яндекс со временем сам удалит ненужные страницы из поиска . Но это может затянуться надолго.
  • Удалить дубли вручную.

Для того чтобы удалить страницу из поиска Яндекса вручную:

  1. Заходим на страницу (дубль).
  2. Копируем ее адрес.
  3. Заходим в Яндекс Вебмастер.
  4. Нажимаем на «Мои сайты».
  5. Выбираем нужный сайт.

Нажимаем в слайдбаре «Удалить URL » и вставляем в форму адрес дубля страницы.

Возможно, вы увидите такое сообщение:

Как быть в таком случае? Данное сообщение сигнализирует о том, что страница не закрыта от индексации в robots.txt или нет параметра noindex. Закрываем ее и пробуем еще раз. Если все сделано правильно вы увидите такое сообщение.

«URL добавлен в очередь на удаление». Сколько времени займет удаление трудно сказать, зависеть это может как от количества страниц на сайте, так и от самого Яндекса.

Рассказать о статье:

Получите профессиональный взгляд со стороны на свой проект

Специалисты студии SEMANTICA проведут комплексный анализ сайта по следующему плану:

– Технический аудит.
– Оптимизация.
– Коммерческие факторы.
– Внешние факторы.

Мы не просто говорим, в чем проблемы. Мы помогаем их решить

Переходим сразу от слов к делу. Для того, чтобы удалить URL адреса из поисковой выдачи в Google необходимо обратиться к сервису вебмастер и выяснить в каких случаях нужно пользоваться сервисом - удалить URL адреса, а в каких не следует:

Прежде всего хочу предупредить о том, что если у Вас присутствуют древовидные комментарии, . Прежде, чем удалять параметры URL и полностью запрещать поисковому роботу обращаться к внутренним ссылкам страниц содержащих: /?replytocom=, следует обязательно удалить из поисковой выдачи - эти страницы содержащие /?replytocom= .

Для удаления URL адреса из поисковой выдачи Google необходимо перейти по адресу https://www.google.com/webmasters/tools/, выбрать значение - оптимизация -> удалить URL адреса:

Если же Вы сначала удалите Параметры URL, то при обращении в сервис удалить URL адреса из поисковой выдачи Google , будет появляться следующее окно, тем самым говоря, что Вы уже внесли replytocom в Параметры URL. Нажимаем — отправить запрос и удаляем необходимый URL страницы:

После удаления URL адреса, можно посмотреть список удаленных страниц:

Там, где стрелка указывает на кнопку «ожидание», при нажатии на нее — появится список вариантов, в котором есть «удаленные» — проверить удалился ли адрес, можете вставив данный URL в строчку браузера.

Когда НЕ следует использовать инструмент удаления URL

Инструмент удаления URL предназначен для срочного удаления страниц, например в тех случаях, если на них случайно оказались конфиденциальные данные. Использование этого инструмента не по назначению может привести к негативным последствиям для вашего сайта.

Не используйте инструмент удаления URL в следующих случаях:

    • Для удаления «мусора» , например старых страниц, отображающих ошибку 404. Если вы изменили структуру своего сайта и некоторые URL в индексе Google устарели, поисковые роботы обнаружат это и повторно просканируют их, а старые страницы постепенно будут исключены из результатов поиска. Вам не нужно запрашивать срочное удаление.
    • Для удаления ошибок сканирования из аккаунта Инструментов для веб-мастеров. Инструмент удаления URL исключает URL из результатов поиска Google, а не из вашего аккаунта Инструментов для веб-мастеров. Вам не нужно вручную удалять URL из этого отчета. Со временем они будут исключены автоматически.
    • Для создания сайта «с чистого листа». Если вы обеспокоены тем, что к вашему сайту могут быть применены штрафные санкции, или хотите начать все сначала после покупки домена у прежнего владельца, рекомендуем подать запрос на повторную проверку, в котором нужно описать, какие изменения вы внесли и в чем состоит причина вашего беспокойства.
    • Для перевода сайта в автономный режим после взлома. Если ваш сайт был взломан и вы хотите удалить из индекса страницы с вредоносным кодом, используйте инструмент удаления URL для удаления новых URL, созданных злоумышленником, например http://www.example.com/buy-cheap-cialis-skq3w598.html. Однако мы не рекомендуем удалять все страницы сайта или те URL, которые нужно будет проиндексировать в будущем. Вместо этого удалите вредоносный код, чтобы роботы Google могли повторно просканировать ваш сайт. Подробнее о работе со взломанными сайтами...
  • Для индексации правильной версии своего сайта. На многих сайтах одно и то же содержание можно найти по разным URL. Если вы не хотите, чтобы дублирующееся содержание отображалось в результатах поиска, ознакомьтесь с рекомендуемыми методами назначения канонических версий страниц. Не используйте инструмент удаления URL для удаления нежелательных версий URL. Это вам не поможет сохранить предпочтительную версию страницы. Ведь при удалении одной из версий URL (http/https, с префиксом www или без него) будут удалены и все остальные.

Для удаления URL адреса из Яндекса , набираем в поисковой строке http://webmaster.yandex.ua/delurl.xml , вводим адрес и действуем по интуитивно понятным инструкциям.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: