Поисковые системы. Краткий обзор основных поисковых систем интернета

Добрый день, уважаемые читатели моего сео блога . Эта статья о том, как работает поисковая система Яндекс , какие она использует технологии и алгоритмы для ранжирования сайтов, что делает для подготовки ответа пользователям. Многие знают, что этот флагман русского поиска задает тон в Рунете, владеет самой большой базой данных в Евразии, оперирует контентом более чем миллиарда страниц, знает ответ на любой вопрос. По данным Liveinternet за август 2012 года, доля Яндекса в России составляет 60,5%. Месячная аудитория портала - 48,9 миллионов человек. Но самое главное, для нас, блоггеров в том, как поисковая система получает наши запросы, как их обрабатывает и какой результат получается на выходе. С одной стороны, зная и понимая эту информацию, нам проще пользоваться всеми ресурсами Яндекса, с другой стороны — легче продвигать наши блоги. Поэтому, предлагаю вместе со мной посмотреть самые важные технологии лучшей поисковой системы Рунета.

Когда пользователь Интернета впервые хочет обратиться за информацией к поисковой системе, у него может возникнуть один вопрос: «Как происходит поиск?» Но когда он ее получает, зачастую этот вопрос меняется на другой: «Почему так быстро?» И действительно, почему поиск какого-нибудь файла на компьютере занимает 20 секунд, а результат запроса со всей сети компьютеров по всему миру появляется через секунду? Самое интересное, что первых два вопроса (как происходит поиск и почему 1 секунда) могут быть в одном ответе — поисковая система заранее подготовилась к запросу пользователя.

Чтобы понять принцип работы Яндекса, как и другой поисковой системы, проведем аналогию с телефонным справочником. Чтобы найти любой номер телефона, необходимо знать фамилию абонента и любой поиск занимает в таком случае максимум минуту, потому что все страницы справочника — это сплошной алфавитный указатель. А вот представьте себе, если бы поиск шел по другому варианту, где номера телефонов были бы упорядочены по самим номерам. После таких поисков, которые уже затянутся на более продолжительное время, цифры перед глазами искавшего будут еще очень долго стоять. 🙂

Так и поисковая система раскладывает всю информацию из Интернета в удобном для нее виде. И самое главное, все эти данные заранее кладутся в ее справочник, до прихода посетителя со своими запросами. То есть, когда мы задаем Яндексу вопрос, он уже знает наш ответ. И выдает нам его через секунду. Но эта секунда включает в себя ряд важнейших процессов, которые мы сейчас подробно рассмотрим.

Индексирование Интернета

Яндекс ру собирает в сети Интернет всю информацию, до которой может дотянутся. С помощью специального оборудования, отсматривается весь контент, в том числе и изображения по визуальным параметрам. Занимается таким сбором поисковая машина, а сам процесс сбора и подготовки данных называется индексированием. В основу такой машины входит компьютерная система, которая по другому именуется поисковый робот. Он регулярно обходит проиндексированные сайты, проверяет их на наличие нового контента, а также сканирует Интернет в поисках удаленных страниц. Если он обнаруживает, что какая-то такая страница больше не существует или закрыта от индексирования, то удаляет ее из поиска.

Как поисковый робот находит новые сайты? Во-первых, благодаря ссылкам с других сайтов. Потому что если на новый веб-ресурс поставлена ссылка с уже проиндексированного сайта, то при следующем посещении второго, робот зайдет в гости и к первому. Во-вторых, в есть чудесный сервис, в народе называемый «аддурилка» (от словосочетания на английском языке -addurl — добавить адрес). В нем можно внести адрес Вашего нового сайта, который через некоторое время посетит поисковый робот. В-третьих, с помощью специальной программы «Яндекс.Бар» отслеживается посещение пользователей, которые ею пользуются. Соответственно, если человек попал на новый веб-ресурс, в скором времени там появится и робот.

Все ли страницы попадают в поиск? Каждый день индексируются миллионы страниц. Среди них есть страницы различного качества, в которых может содержатся разная информация — от уникального контента до сплошного мусора. Причем, как говорит статистика, мусора в Интернете намного больше. Каждый документ поисковый робот анализирует с помощью специальных алгоритмов. Он определяет, есть ли у него какая-нибудь полезная информация, сможет ли он ответить на запрос пользователя. Если нет, то такие страницы не берут «в космонавты», если же да, то он включается в поиск.

После того, как робот посетил страницу и определил ее полезность, она появляется в хранилище поисковой машины. Здесь идет разбор любого документа до самых основ, как говорят мастера автоцентра — до винтиков. Страница очищается от html-разметки, чистый текст проходит полную инвентаризацию — подсчитывается местоположение каждого слова. В таком разобранном виде страница превращается в таблицу с цифрами и буквами, которую по другому называют индексом. Теперь, чтобы не случилось с веб-ресурсом, в котором содержится эта страница, ее последняя копия всегда есть в поиске. Даже если сайт уже не существует, слепки его документов еще некоторое время хранятся в Интернете.

Каждый индекс вместе с данными о типах документов, кодировке, языке вместе с копиями составляют поисковую базу . Она периодически обновляется, поэтому находится на специальных серверах, с помощью которых происходит обработка запросов пользователей поисковой системы.

Как часто происходит процесс индексации? В первую очередь это зависит от типов сайтов. Веб-ресурс первого типа очень часто меняет содержимое своих страниц. То есть, когда к этим страницам каждый раз приходит поисковый робот, они каждый раз содержат другой контент. По ним ничего в следующий раз уже не получится найти, поэтому такие сайты не включаются в индекс. Второй тип сайтов — хранилища данных, на страницах которых периодически добавляются ссылки на документы для скачивания. Контент такого сайта обычно не меняется, поэтому его робот посещает крайне редко. Другие сайты зависят от частоты обновления материала. Имеется в виду следующее — чем быстрее появляется новый контент на сайте, тем чаще приходит поисковый робот. И приоритет отдается в первую очередь наиболее важным веб-ресурсам (новостной сайт на порядок важнее, чем любой блог, к примеру).

Индексирование позволяет выполнить первую функцию поисковой системы — сбор информации на новых страницах в сети Интернет. Но у Яндекса есть и вторая функция — поиск ответа на запрос пользователя в уже подготовленной поисковой базе.

Яндекс готовит ответ

Процессом обработки запроса и выдачей релевантных ответов занимается компьютерная система «Метапоиск» . Для своей работы сначала она собирает всю вводную информацию: из какого региона был осуществлен запрос, к какому классу относится, есть ли ошибки в запросе и т.д. После такой обработки метапоиск проверяет, есть ли в базе точно такие же запросы с такими же параметрами. Если ответ положительный, то система показывает пользователю заранее сохраненные результаты. Если же такого вопроса в базе не существует, метапоиск обращается поисковой базе, в которой содержатся данные индекса.

И вот здесь происходят удивительные вещи. Представьте себе, что существует один супермощный компьютер, который хранит в себе весь обработанный поисковыми роботами Интернет. Пользователь задает запрос и в ячейках памяти начинается поиск всех документов, причастных к запросу. Ответ найден и все довольны. Но возьмем другой случай, когда появляется очень много запросов, содержащих в своем теле одинаковые слова. Система должна каждый раз пройтись по одним и тем же ячейкам памяти, что может увеличить время на обработку данных в разы. Соответственно, увеличивается время, что может привести к потери пользователя — он обратится за помощью к другой поисковой системе.

Чтобы таких задержек не было, все копии в индексе сайтов распределены по разным компьютерам. После передачи запроса, метапоиск дает команду таким серверам искать свой кусочек с текстом. После чего, все данные от этих машин возвращаются в центральный компьютер, он объединяет все полученные результаты и выдает пользователю первую десятку самых лучших ответов. С такой технологией сразу убивается два зайца: в несколько раз уменьшается время поиска (ответ получается за доли секунды) и благодаря увеличению площадок дублируется информация (данные не теряются из-за внезапных поломок). Сами компьютеры с дублирующей информацией составляют дата-центр — это комната с серверами.

Когда пользователь поисковой системы задает свой запрос,в 20-ти случаях из 100 получаются неоднозначные цели в вопросе. Например, если он пишет в строке поиска слово «Наполеон», то еще не известно, какой ответ ожидает — рецепт торта или биография великого полководца. Или фраза «Братья Гримм» — сказки, фильмы, музыкальная группа. Чтобы такой возможный веер целей сузить до конкретных ответов в Яндексе существует специальная технология С п е к т р . Она учитывает потребности пользователей, используя статистику поисковых запросов. Из всех вопросов, заданных в Яндексе посетителями, Спектр выделяет в них различные объекты (имена людей, названия книг, модели машин и т.д.) Эти объекты распределены по некоторым категориям. На сегодняшний момент таких категорий насчитывается более 60-ти. С помощью них поисковая система имеет в своей базе разные значения слов в запросах пользователей. Интересно, что эти категории периодически проверяются (анализ происходит пару раз в неделю), что позволяет Яндексу более точно давать ответы на поставленные вопросы.

На базе технологии Спектр Яндекс организовал диалоговые подсказки. Они появляются под поисковой строкой, в которой пользователь набирает свой неоднозначный запрос. В этой строке отражены категории, к которым может относится объект вопроса. От выбора пользователем такой категории зависят дальнейшие результаты поиска.

От 15 до 30% всех пользователей поисковой системы Яндекс желают получить только местную информацию (данные того региона, в котором они живут). Например, о новых фильмах в кинотеатрах своего города. Поэтому ответ на такой запрос должен быть разным для каждого региона. В связи с этим, Яндекс использует свою технологию поиска с учетом регионов . Например, вот такие ответы могут получить жители, которые ищут репертуар фильмов в своем кинотеатре «Октябрь»:

А вот такой результат получат жители города Ставрополь на тот же запрос:

Регион пользователя определяется в первую очередь по его ip-адресу. Иногда эти данные не точны, потому что ряд провайдеров могут сразу работать на несколько регионов, а значит и менять ip-адреса cвоим пользователям. В принципе, если такое случилось с Вами, Вы легко можете поменять в настройках в поисковой системе свой регион. Он указан в правом верхнем углу на странице выдачи результатов. Изменить его можно .

Поисковая система Яндекс ру — результаты ответа

Когда Метапоиск подготовил ответ, поисковая система Яндекс должна выдать его на странице с результатами. Она представляет собой перечень ссылок на найденные документы с небольшой информацией по каждому. Задача технологии выдачи результатов — максимально информативно предоставить пользователю самые релевантные ответы. Шаблон одной такой ссылки выглядит следующим образом:

Рассмотрим эту форму результата поподробней. Для заголовка результата поиска Яндекс часто использует название заголовка страницы (то, что оптимизаторы прописывают в теге title). Если же его нет, то здесь появляются слова из названия статьи или поста. Если текст заголовка большой, поисковая система ставит в это поле его фрагмент, который больше всего релевантен к заданному запросу.

Очень редко, но бывает так, что заголовок не соответствует содержанию запроса. В таком случае Яндекс формирует свой заголовок результата поиска, используя текст в статье или посте. Он обязательно будет иметь слова запроса.

Для сниппета поисковая система использует весь текст на странице. Она выбирает все фрагменты, где присутствует ответ на запрос, а потом выбирает самый релевантный из них и вставляет в поле формы ссылки на документ. Благодаря такому подходу, грамотный оптимизатор может после увиденного сниппета его переделать, тем самым улучшив привлекательность ссылки.

Для лучшего восприятия результата на запрос пользователя, заголовки оформляются как ссылки в тексте (выделение синим цветом с подчеркиванием). Для привлекательности веб-ресурса и его узнаваемости добавляется фавикон — маленький фирменный значок сайта. Он появляется слева от текста в первой строке перед заголовком. Все слова, которые входили в запрос в ответе тоже выделены жирным шрифтом для удобства восприятия.

В последнее время в сниппет поисковая система Яндекса добавляет различную информацию, которая поможет пользователю еще быстрее и точнее найти свой ответ. К примеру, если пользователь в своем запросе пишет название какой-либо организации, то в сниппете Яндекс добавит адрес ее, контактные телефоны и ссылку на месторасположение в географических картах. Если поисковой системе знакома структура сайта, в котором есть документ с ответом для пользователя, он ее обязательно покажет. Плюс к этому Яндекс тут же может добавить в сниппет наиболее посещаемые страницы такого веб-ресурса, чтобы при желании посетитель смог сразу перейти в нужный ему раздел, экономя свое время.

Есть сниппеты, которые содержат в себе цену какого-либо товара для интернет-магазина, рейтинг отеля или ресторана в виде звездочек, другая интересная информация с различными цифрами о объектах в документах поиска. Задача такой информации — дать полный перечень данных о тех предметах или объектах, которые интересны пользователю.

В целом уже с различными примерами страница с ответами будет выглядеть так:

Ранжирование и асессоры

В задачу Яндекса входит не только поиск всех возможных вариантов ответа, но и подбор самых лучших (релевантных). Ведь пользователь не будет рыться во всех ссылках, которые ему предоставит в качестве результата поисков Яндекс. Процесс упорядочивания результатов поиска называется ранжированием . То есть именно ранжирование определяет качество предлагаемых ответов.

Есть правила, по которым Яндекс определяет релевантные страницы:

  • понижение в позициях на странице с результатами ждут сайты, которые ухудшают качество поиска. Обычно это такие веб-ресурсы, владельцы которых пытаются обмануть поисковую систему. К примеру, это сайты со страницами, на которых находится бессмысленный или невидимый текст. Конечно, он видим и понятен поисковому роботу, но не посетителю, читающему этот документ. Или сайты, которые при переходе на ссылке в зоне выдачи сразу переводят пользователя совсем на другой сайт.
  • не попадают в выдачу результатов или сильно понижаются в ранжировании сайты, содержащие в себе эротический контент. Это связано с тем, что часто такие веб-ресурсы используют агрессивные методы продвижения.
  • зараженные вирусами сайты не понижаются в выдаче и не исключаются с результатов поиска — в этом случае пользователь информируется об опасности с помощью специального значка. Это связано с тем, что Яндекс предполагает, что на таких веб-ресурсах могут находиться важные документы по запросу посетителя поисковой системы.

К примеру, так будет ранжировать Яндекс сайты по запросу «яблоко»:

Кроме факторов ранжирования Яндекс использует специальные образцы с запросами и ответами на них, которые пользователи поисковой системы считают самыми подходящими. Такие образцы ни одна машина не сможет сделать на данный момент — это прерогатива человека. В Яндексе такие специалисты называются асессорами . В их задачу входит полный анализ всех документов поиска и оценка ответов на заданные запросы. Они выбирают лучшие ответы и составляют специальную обучающую выборку. В ней поисковая машина видит зависимость между релевантными страницами и их свойствами. Имея такую информацию Яндекс может подобрать для каждого запроса оптимальную формулу ранжирования. Метод построения такой формулы называется Матрикснет. Плюс этой системы в том, что она устойчива к переобучению, что позволяет учитывать большое количество факторов ранжирования, не увеличивая количество ненужных оценок и закономерностей.

В завершении моего поста хочу показать вам интересную статистику, собранную поисковой системой Яндекса в процессе своей работы.

1. Популярность личных имён в России и российских городах (данные взяты из учетных записей блоггеров и пользователей социальных сетей в марте 2012 года).

Великий провидец

В 1863 году великий писатель Жюль Верн создал очередную свою книгу «Париж в ХХ веке». В ней он подробно описал метро, автомобиль, электрический стул, компьютер и даже сеть Интернет. Однако издатель отказался печатать книгу и она пролежала более 120 лет, пока ее не нашел правнук Жюля Верна в 1989 году. Издана была книга в 1994году.

Интернет сегодня - это кладезь информации планетарных масштабов, где каждый житель Земли способен найти практически всё, что ему требуется. Обладая немыслимыми объёмами данных и сведений, человечество также имеет все необходимые средства для максимально быстрого и комфортного поиска того, что требуется каждому в определённый момент времени. Этими средствами являются поисковые системы, которыми каждый из нас пользуется ежедневно: Google, Yandex, Rambler, Yahoo и многие другие технологии со своими уникальными возможностями под разные предпочтения.

И объединяет их ровным счётом одно простое свойство - ни одна из систем не является неким сверхтехнологичным центром, хранящим в своих ресурсах невообразимое количество информации на все случаи жизни. Все они по своей сути являются путеводителями для пользователей по огромным просторам Интернета и работают по определённым программным алгоритмам.

поисковой машины «Яндекс»: базовые основы

Функционал «Яндекса» позволяет довольно гибко сортировать все получаемые результаты с учётом конкретных доменов, регионов, языков и многих других параметров. Формат вводимых данных и получаемые результаты могут настраиваться и фильтроваться пользователями при помощи простых комбинаций символов. Благодаря этому существенно повышаются эффективность и удобство поиска.

Каждый запрос от пользователя сначала отправляется на наиболее свободный сервер (сразу после автоматического анализа на загруженность системы), после чего его обработкой занимается программа «Метапоиск». Софт в реальном времени проводит анализ введённой информации в поисковой строке на предмет лингвистики, географического положения пользователя, принадлежности запроса к категориям «наиболее популярных»/«недавно заданных» и т. д. Результаты поиска для этих случаев на некоторое время сохраняются в кэше «Метапоиска», благодаря чему выдача необходимой информации осуществляется быстрее.

В случае поиска более редкой информации, сведения о которой в кэше отсутствуют, обработка запроса перенаправляется к другому программному механизму - «Базовый поиск». Тот анализирует всю базу данных, разбитую по различным дублирующимся серверам для ускорения процессов поиска, и выдаёт найденную информацию обратно «Метапоиску».

Все полученные данные в итоге упорядочиваются и предъявляются пользователю в готовом, удобно воспринимаемом виде. Весь процесс в среднем занимает максимум 1-2 секунды.

Правильный поиск в «Яндекс»: язык поисковых запросов и особенности синтаксиса

Наличие определённых слов в полученных результатах, а также их взаимное расположение можно легко настраивать при помощи специальных операторов, формирующих язык поисковых запросов «Яндекса».

Оператор Функция Пример использования
+ Отображение результатов по тем ресурсам, в которых обязательно есть обозначенное оператором слово. Язык запросов поисковой системы «Яндекс» допускает многократное использование при наличии двух или более слов в запросе.

всемирная+паутина+интернет

«Яндекс» выдаст те результаты, которые точно содержат слова «паутина», «интернет» и, возможно, «всемирная».

" Поиск по конкретно заданной форме или последовательности символов.

"уходит далеко в багровый закат"

Результаты поиска обязательно будут содержать в себе данную фразу без изменений.

* Используется только лишь с предыдущим оператором. Данный символ позволяет организовать поиск цитаты с пропущенными словами.

уходит *в багровый закат

Поисковик выдаст результаты с данной цитатой и пропущенным словом.

уходит ** закат

Поисковик выдаст результаты с данной цитатой и пропущенными словами.

& Поиск результатов с предложениями, которые содержат объединённые данным оператором слова.

красиво & интерьер & дом

Пользователю будут представлены результаты, в которых как минимум одно предложение содержит данный набор слов (их можно задавать оператором от двух и более).

&& Поиск ресурсов, которые просто содержат данный набор слов.

референдум && Великобритания && Европа & кризис

Будут выданы все результаты, содержащие эти слова вне зависимости от расстояния и расположения друг к другу.

По признакам служебной информации

Существуют операторы поисковых запросов «Яндекс» для уточнения сведений по таким параметрам, как: заголовки, типы файлов, хост, домены, дата последнего изменения страниц результатов и их язык.

Оператор Функция Пример использования
title: Поиск по документам, содержащим слова из запроса в заголовках.

title: машиностроение

Будут найдены документы со словом «машиностроение» и его словоформами в заголовке.

title: (машиностроение ФРГ)

Будут найдены документы с заголовками, содержащие слова «машиностроение» и «ФРГ» (для запросов, в которых нужно скомбинировать для поиска два и более слова, необходимо ставить скобки).

mime: Поиск по документам определённого формата.

шаблон резюме mime:docx

Результатами поиска будут все документы формата.docx, которые содержат слова «шаблон» и «резюме».

host: Поиск по страницам, которые размещены на определённом хосте.

законопроект host:www.yandex.ru

На хосте www.yandex.ru будет проведён поиск по всем документам, содержащим слово «законопроект».

domain: Поиск по страницам всего домена.

хилари клинтон host:www.whitehouse.gov

На домене www.whitehouse.gov будет проведён поиск всех документов, содержащих слова «хилари» и «клинтон».

date: Поиск по страницам с учётом даты их последнего изменения (использование языка запросов «Яндекс» предусматривает также отсутствие значения дня и месяца, если их заменить символом *).

событие дня date:20160624

Будут найдены все документы, содержащие слова «событие» и «дня», а также их словоформы, дата последних изменений которых соответствует 24.06.2016

саммит date:20150819..date20150909

Поиск результатов, дата последних изменений которых находится в интервале от 19.08.2015 до 09.09.2015

круиз date:>20160611

Отображаются все результаты, дата последних изменений которых позднее 11.06.2016

  • < - дата последних изменений ранее указанного срока
  • >= - последние изменения сделаны позднее или в этот же указанный срок
  • <= - последние изменения сделаны ранее или в этот же указанный срок
lang:

Поиск по страницам на конкретно указанном языке:

  • ru - русский
  • be - беларуская
  • uk - українська
  • en - english
  • fr - français
  • de - deutsch
  • kk - қазақ
  • tt - tatarça
  • tr - türkçe

green card lang:en

Поиск англоязычных документов по данному запросу.

Практически любой зарубежный аналог имеет подобный язык запросов. Язык поисковых запросов «Яндекса», в свою очередь, от конкурентов по большому счёту отличается чуть более расширенными возможностями и функциями.

Морфологические уточнения

По умолчанию поисковик предлагает пользователю широкий спектр выдаваемых результатов по введённому запросу, основу чего составляет не только само введённое слово/фраза, но и различные его формы (падеж, род, склонение, число и т. д.). Также учитываются вариации части речи (будь то существительное, глагол, прилагательное и т. д.) и регистр первой буквы. К примеру, при вводе в поисковую строку «атаковал» пользователь получит информацию и по прочим глагольным формам: «атаковать», «атакую», «атакован» (но однокоренные слова наподобие «атака», «атакованный», учитываться не будут). При этом будут показаны результаты как с заглавной первой буквой в запрошенном слове, так и с маленькой.

Практически все особенности языка запросов различных поисковых систем основаны на подобных принципах работы. В «Яндексе» ограничение по морфологическим признакам может пригодиться для более точной работы поисковика:

Оператор Функция Пример использования
! Поиск слова исключительно в заданной форме. Язык поисковых запросов «Яндекса» допускает многократное использование оператора при наличии двух или более слов в запросе.

!интернет

«Яндекс» выдаст все результаты в заданной форме запроса с заглавной и строчной первой буквой.

!Интернет

«Яндекс» выдаёт результаты по заданной форме запроса, начинающиеся исключительно с заглавной буквы.

!! Чуть более широкий поиск слова и производных его форм.

!!пень

Будут выданы результаты любой из форм этого слова («пнём», «пну», «пеньком» и т. д.), однако результаты со схожей словоформой глагола «пинать» будут исключены.

Специальные методы подбора ключевых слов под контекстную рекламу

Языки поисковых запросов также распространяются далеко за пределы пользовательского сегмента, награждая простыми рабочими инструментами и рекламодателей. В частности, для подобных целей «Яндекс» имеет на вооружении целый ряд алгоритмов и операторов, позволяющих эффективно продвигать свои сайты и услуги в поисковой системе.

Логика показа контекстной рекламы на запросы пользователя основана на подборе слов, тематически относящихся к предмету этого объявления, а также на иных их словоформах. Например, подобные методы позволяют показывать объявление о юридических услугах не только лишь в ответ на «юридические услуги в городе N», а ещё и тем пользователям, которые делали схожие запросы (будь то «адвокаты город N цены», «адвокатские конторы», «юрист город N дёшево» и т. п.). В результате реклама будет отображаться более широкой аудитории пользователей, и это, соответственно, потенциально привлечёт больше внимания к ней.

Однако объявления должны быть показаны лишь тем пользователям, которые делают тематически смежные запросы в поисковике. К примеру, реклама юридических курсов никак не будет эффективной, если она будет показана пользователям, нуждающимся в услугах адвоката на данный момент. Регулирование подобных моментов осуществляется с помощью целого перечня операторов в поисковой системе «Яндекс». Описание языка запросов для рекламных задач в целом будет выглядеть так, как показано ниже.

Оператор Функция Пример использования
- Исключение для слов в запросах, когда объявление показываться не будет. Допускается многократное использование оператора при необходимости задать два или больше исключений.

юрист-курсы-дёшево

Объявление будет показываться по всем запросам со словами «юрист» и «дёшево», но исключая те, которые содержат в себе слово «курсы».

юрист-курсы-практика

+ Отображение рекламы для тех запросов, в которых есть определённое слово/слова.

+аренда +квартиры+Сочи недорого

! Оператор служит определением конкретной формы слова в запросах, согласно которой сообщение будет показываться (либо наоборот).

!клуб!Лепассо

Реклама показывается только для тех запросов, в которых содержится хотя бы одно из этих двух слов в конкретно заданной форме. При этом «Лепассо» в запросе обязательно должно начинаться с заглавной буквы для отображения объявления.

!клуб!Лепассо-!пейнтбол

Группировка слов для сложных запросов, состоящих из нескольких слов (язык поисковых запросов «Яндекса» позволяет использовать эту функцию для двух или более слов).

машина-(аренда напрокат)

Объявление будет показываться при запросе, содержащих слово «машина», но в то же время не имеющие слова «аренда» и «напрокат».

+(машина купить Владивосток) дёшево

"" Показ объявления для запросов, содержащих только слова в кавычках или их словоформы.

"программист"

Реклама показывается для запросов этого слова и его словоформ наподобие «программиста», «программисту». В то же время объявление не будет показано для таких запросов пользователей, как «программист ремонт компьютера недорого», «программист взлом сайта».

Уроки комфорта и простоты от поисковых подсказок «Яндекса»

Упрощение процесса ввода поисковой информации при помощи подсказок воспринимается уже без какого-либо ажиотажного восторга. Такая технология сегодня есть в каждой популярной поисковой системе, основывается она на предварительной выдаче популярных запросов, схожих с введёнными пользователем в поисковую строку буквами.

«Яндекс» эту систему реализует посредством некоторых фирменных особенностей. Все наборы подсказок обрабатываются и группируются из числа наиболее массовых запросов пользователей. Используются также и научные термины из энциклопедических статей, названия фильмов, музыкальных произведений и иного тематически подходящего контента. В итоге пользователь с момента ввода самой первой буквы в поисковую строку получает под нею целый перечень вариантов наиболее популярных запросов, начинающихся с тех же символов.

К тому же в подсказках могут сразу указываться ссылки на нужные сайты или же ответ на заданный вопрос. К примеру, достаточно ввести половину запроса «длина окружности», как в соответствующем поле под поисковой строкой пользователю будет представлена готовая формула расчёта. Спрашивая «столица Австралии», вы не успеете дописать фразу до конца, как «Яндекс» тут же выдаст эти сведения в перечне подсказок.

Если же ссылка на какой-либо сайт будет релевантным ответом на запрос, то этот адрес будет доступен сразу в том же поле. Такой подход позволит быстрее перейти на нужный ресурс, минуя список всех найденных результатов.

Фильтрация непотребного контента

Функционал «Яндекса» также предусматривает исключение ресурсов «18+» из поисковых результатов вне зависимости от используемых средств языка запросов. Полезна эта функция будет в первую очередь для защиты малолетних пользователей от «материалов для взрослых» в Сети. И даже если ребёнок не стесняется использовать в действии все средства, которыми богат язык поисковых запросов «Яндекса», то это всё равно ему никак не поможет преодолеть барьер от подобных сайтов.

В поиске «Яндекса» для пользователей предусмотрено 3 режима :

  • «Без защиты» - какие-либо ограничения на выдаваемые результаты полностью отсутствуют.
  • «Умеренный» - если запрос пользователя явно не направлен на поиск сайтов «18+», то они в таком случае изымаются из результатов поиска.
  • «Семейный» - нецензурный контент полностью отсутствует в результатах поиска.

Все эти варианты защиты от недетского содержимого контролируются в соответствующем меню настроек «Яндекса».

Дополнительные функции поисковой машины

Помимо широкого спектра различных операторов языка запросов, «Яндекс» также предлагает ещё пару способов поиска информации:

  • «Расширенный» - более приятный сервис с интуитивно понятной структурой для тех, кто нуждается в использовании средств языка запросов. Достаточно только ввести в соответствующие поля необходимые параметры (поиск по конкретному ресурсу, регион, точность совпадения со словами поискового запроса, поиск по заголовкам, язык, формат документа, дата последнего обновления и т. д.), не прибегая к менее комфортному ручному вводу операторов. «Расширенный поиск» и язык запросов «Яндекса» - один и тот же функционал, но с разницей в том, что первый предлагает использование тех же операторов в более удобной форме.

  • «Дзен-поиск». Основываясь на истории поисковых запросов пользователя, «Яндекс» предлагает последнему сервис публикаций в СМИ. Доступен только для мобильных устройств и внешне представляет собою набор из превью новостей, подобранных согласно истории просмотров. Пользователь может выбрать любую понравившуюся публикацию, прочитать несколько первых абзацев и, если она ему интересна, перейти на сайт издателя по этому материалу. В противном случае достаточно выбрать "Не нравится" для того, чтобы не отображать конкретную новость или отметить таким образом весь ресурс, исключая его из своей новостной ленты.

Механизмы защиты от нежелательной и вредоносной информации

Основным свойством любой поисковой машины являются не только лишь разнообразные операторы поисковых запросов. «Яндексу» также характерен высокий уровень безопасности всех найденных результатов. Базовая проверка страниц и предупреждения о вредоносных сайтах у этой поисковой системы появились в 2009 году. Обнаружение угроз осуществляется двумя технологиями:

  • Антивирусная защита, приобретённая у компании Sophos и основанная на сигнатурном подходе: обращение антивирусной системы при заходе пользователя на веб-страницу к базе данных, содержащей информацию об известном вредоносном ПО. Невзирая на высокую скорость работы, подобная технология практически полностью бесполезна в случае столкновения с новыми вирусными угрозами. Поэтому «Яндекс» дополнительно использует и вторую технологию.
  • Фирменный антивирусный комплекс, основу которого составляет Сначала защита при обращении к сайту анализирует, делает ли он запрос у браузера дополнительных файлов, перенаправляет ли на посторонний ресурс и т. д. Если обнаруживаются посторонние действия ресурса без ведома пользователя (запуск модулей JavaScript, полноценных программ, каскадных таблиц стилей), то он заносится в чёрный список опасных сайтов и базу вирусных сигнатур. Владелец самого сайта также будет уведомлён об этих угрозах, и все последующие проверки будут периодически проводиться вплоть до того момента, как все проблемы безопасности на нём не будут полностью устранены.

Подобный подход к анализу предоставляемых страниц с результатами поиска в сочетании с фирменными технологиями «Яндекса» позволили минимизировать процент заражённых сайтов в этом поисковике до единиц. Ежедневные проверки «Яндекса» охватывают в общей сложности до 23 миллионов ресурсов, а за месяц это число доходит примерно до 1 миллиарда.

Привет дорогие друзья! В этой статье мы продолжим рассматривать поисковую систему Яндекс, и как вы помните, в прошлых статьях был рассмотрена история создания этой великой компании, которая занимает первое место среди конкурентов в России и не только.

Все это хорошо, но новичков и бывалых сайтостроителей интересует самый главный вопрос, конечно же, связанный с тем, как выводить свои проекты на первые места ТОП выдачи.

Поэтому давайте рассмотрим, как работает поисковая система Яндекс, чтобы понять на какие грабли можно наступить, да и чего вообще стоит ждать от русской поисковой машины.

В прошлой статье мы с тобой обсуждали . Тема оказалась достаточно интересной и полезной. Поэтому я решил её дополнить, углубить так сказать.

Итак, наверное, с вопросом «Зачем поисковик индексирует документы» я погорячился – это и ежу понятно. Осталось выяснить вопрос «как».

Алгоритмы ранжирования сайтов

Для начала давай познакомимся с некоторыми алгоритмами, которые являются основополагающими для любой поисковой системы:

— Алгоритм прямого поиска.

Что это такое – вы помните, что читали замечательную историю в одной из книг. И вы начинаете по очереди искать. Взяли одну книгу – полистали – не нашли, взяли другую... Принцип понятен, но этот способ чрезвычайно долгий. Это тоже понятно.

— Алгоритм обратного поиска.

Для этого алгоритма создается из каждой страницы твоего блога – создается текстовый файл. В этом файле перечисляются в алфавитном порядке ВСЕ слова, которые ты использовал. Даже позиция этого слова в тексте указывается (координаты в тексте).

Это достаточно быстрый способ, но уже поиск происходит с какой-то погрешностью.

Здесь главное понимать, что алгоритм этот ищет не в интернете, не поиском по блогу. А в отдельно взятом текстовом файле, который создан был когда-то давно. Когда робот заходил к тебе. И эти файлы (обратные индексы) хранятся на серверах Яндекса.

Так, это были базовые алгоритмы поиска. Т.е. как Яндекс просто находит нужные документы. С этим вроде бы проблем не должно быть.

Но ведь документов Яндекс знает не один и даже не 100, а по последним данным из моих источников – Яндекс знает порядка 11 млрд. документов (10 727 736 489 страниц) .

И среди всего этого количества нужно выбрать документы, подходящие под запрос. И что еще важнее – нужно как-то ранжировать их. Т.е. выстроить по степени важности, а точнее по степени полезности для читателя.

Математические модели поиска

Для решения этого вопроса на помощь приходят математические модели. Вот о простейших моделях мы сейчас и поговорим.

Булевская мат.модель – Если слово встречается в документе – документ считается найденным. Просто на совпадение и ничего сложного.

Но тут есть проблемы. Например, если ты как пользователь введешь какое-то популярное слово, а еще лучше предлог «в», который является самым распространенным словом в русском языке и встречается в КАЖДОМ документе – то тебе выдаст такое количество результатов, что ты даже не осознаешь такую цифру, сколько тебе документов нашлось. Поэтому появилась следующая мат модель.

Векторная мат.модель – эта модель определяет «вес» документа. Уже не только совпадение встречается, но и это слово должно встречаться несколько раз. Причем чем больше слово встречается – тем выше релевантность (соответствие).

Именно векторную модель используют ВСЕ поисковики.

Вероятностная модель – более сложная. Принцип такой: поисковик нашел сам эталон страницы. Например, вы ищете информацию об истории Яндекса. У Яндекса хранится какой-то эталон, допустим это будет моя предыдущая статья о Яндексе.

И все остальные документы он будет сравнивать с этой статьёй. И логика здесь такая: чем более страница твоего блога похож на мою статью – тем ВЕРОЯТНЕЕ тот факт, что твоя страница блога тоже будет полезна читателю и тоже рассказывает об истории Яндекса.

Чтобы сократить количество документов, которые нужно показывать пользователю – было введено понятие релевантности, т.е. соответствия.

Насколько страница твоего блога действительно соответствует теме. Это важная тема, которая касается качества поиска.

Асессоры — кто это и за что отвечают

Нужна эта релевантность еще и для оценки качества работы алгоритмов.

Для этого есть штаб спецназа – их называют Асессоры. Это специальные люди, которые руками просматривают поисковую выдачу.

У них есть инструкция, как проверять сайты, как оценивать и т.п. И они руками определяют по порядку подходят твои страницы поисковым запросам или не подходит.

И вот от мнения асессоров зависит качество поисковых алгоритмов. Если все асессоры скажут, что поисковая выдача не соответствует запросам – значит неправильный алгоритм ранжирования и здесь вина только Яндекса.

Если асессоры говорят о том, что только один сайт не соответствует запросу – значит, сайт улетает куда-то далеко и понижается в выдаче. Точнее не весь сайт, а только одна статья, но это «не суть».

Конечно, асессоры не могут руками и глазами просмотреть и оценить ВСЕ статьи. Это ж понятно.

И на помощь приходят другие параметры, по которым проходит ранжирование страниц.

Их очень много, ну например:

  • вес страницы (вИЦ, PageRank, пузомерки в общем);
  • авторитетность домена;
  • релевантность текста запросу;
  • релевантность текстов внешних ссылок запросу;
  • а также множество других факторов ранжирования.

Асессоры вносят замечания, а люди, которые отвечают за за настройку математической модели ранжирования уже, в свою очередь, редактируют формулу, в результате чего поисковик работает более качественно.

Основные критерии оценки работы формулы:

1. Точность выдачи поисковой системы - процент документов, соответствующих запросу (релевантных). Т.е. чем меньше страниц, не соответствующих запросу присутствует - тем лучше.

2. Полнота выдачи поисковой системы - это отношение релевантных веб-страниц по данному запросу к общему количеству релевантных документов, находящихся в коллекции (совокупности страниц, находящихся в поисковой системе).

Например, если во всей коллекции релевантных страниц больше, чем в поисковой выдаче, то это означает неполноту выдачи. Это произошло из-за того, что некоторая часть релевантных веб-страниц попала под фильтр.

3. Актуальность выдачи поисковой системы - это соответствие веб-страницы тому, что написано в сниппете. Например, документ может сильно отличаться или вовсе не существовать, но в выдаче присутствовать.

Актуальность выдачи напрямую зависит от того, как часто сканирует поисковый робот документы из своей коллекции.

Сбор коллекции (индексация страниц сайта) осуществляется специальной программой - поисковым роботом.

Поисковый робот получает список адресов для индексации, копирует их, далее содержимое скопированных веб-страниц отдаёт на обработку алгоритму, который преобразует их в обратные индексы.

Ну, вот «в двух словах», если можно так сказать, мы обсудили принципы работы поисковика.

Давай подытожим:

  1. Поисковой робот приходит к тебе на блог.
  2. Поисковой робот сохраняет у себя обратный индекс страницы для последующего поиска.
  3. С помощью математической модели документ обрабатывается и выдается в поисковой выдаче по формулам и с учетом мнения асессора.

Это если очень-очень упрощенно. Просто, чтобы сложилось базовое понимание работы поисковой системы Яндекс.

Я сейчас написал так много текста, и, возможно столько всего не понятно. Поэтому я предлагаю тебе вернуться на эту статью чуть позже и просмотреть вот это видео.

Это отличное руководство, по которому в своё время и я учился.

Надеюсь данная информации поможет лучше понять, почему какой-то из ваших сайтов занимает соответствующие позиции в поиске и сделать все, чтобы их улучшить.

На этом я с вами прощаюсь, если есть вопросы, я всегда рад ответить на них в комментариях. А может вы хотите дополнить статью?

В любом случае высказывайте свое мнение. !

Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»)

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

3. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

  • Полнота

    Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

    Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

  • Актуальность

    Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

  • Скорость поиска

    Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

  • Наглядность

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и , имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

  • URL страницы
  • дата, когда страница была скачана
  • http-заголовок ответа сервера
  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

  • Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде , то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
  • Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
  • В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
  • Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
  • Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

6. Заключение

Теперь подытожим все вышесказанное.

  • Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
  • Основные характеристики поисковых систем:
    1. Полнота
    2. Точность
    3. Актуальность
    4. Скорость поиска
    5. Наглядность
  • Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
  • В состав поисковой системы входят компоненты:
    1. Модуль индексирования
    2. База данных
    3. Поисковый сервер

Надеемся, наш мастер-класс позволит Вам поближе ознакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.


По материалам сайта: http://www.seonews.ru/

Справочники и поисковые системы глобального масштаба

Все перечисленные системы предназначены для поиска информации в Интернет в целом, без относительно к какому либо региону мира. При необходимости выявления исчерпывающей информации рекомендуется провести последовательный поиск с использованием нескольких поисковых машин или справочников.


About

Справочник, поддерживаемый экспертами различных областей знания. Основная задача - отразить не все, а лишь наиболее ценные ресурсы. Описания сайтов составлены очень квалифицированно. Удобен при необходимости отбора самых качественных ресурсов по конкретной тематике. Основной недостаток - медленное обновление материала.


AlltheWeb

Изначально - поисковая система, расположенная в Европе и ориентированная преимущественно на европейские сайты. С марта 2004 года под брэндом AlltheWeb была размещена и запущена поисковая система Yahoo! и в настоящее время AlltheWeb представляет собой фактическое “зеркало” поисковой системы Yahoo! Serach, с той лишь разницей, что в его модуле выдачи результатов гораздо лучше решены проблемы вывода документов на разных языках, использующих кодировки, отличные от расширенной латиницы. В число 36 языков, с которыми система работает вполне корректно, попал и русский.


Alta Vista

В прошлом одна из наиболее популярных поисковых систем мира. С марта 2004 года под брэндом Alta Vista была размещена и запущена поисковая система Yahoo! и в настоящее время Alta Vista представляет собой фактическое “зеркало” поисковой системы Yahoo! Serach.


Excite

Поисковая система, объем базы данных которой насчитывает более 250 миллионов документов. Имеет развернутую подсистему поиска мультимедийных источников.


Google

Мировой лидер поискового сервиса. Поисковая система последнего поколения, декларирующая самый большой объем базы данных - более 8 миллиардов документов. Обеспечивает интерфейс на языке пользователя, а также возможность разыскания иллюстраций. Google был первой поисковой машиной, начавшей индексацию документов в форматах PDF, PS, DOC, XLS, PPT, RTF, WP5.


HotBot

Поисковая система, объем индекса базы данных которой не превышает 500 миллионов документов. Имеет возможность поиска иллюстраций, аудио и видео файлов. Не допускает выявление документов на русском языке.


LookSmart

Справочник ресурсов, ориентированный на интересы среднестатистического пользователя Интернет.


Lycos

Проект пережил несколько кардинальных преобразований. В 1996 году был начат как поисковая система, в 1999 году Lycos преобразован в справочник ресурсов, но с июля 2002 года, с введением в эксплуатацию поискового механизма Search Lycos 6.0, вновь используется в основном как поисковая система. Допускает поиск иллюстраций, аудио и видеофайлов. Декларируя наибольший объем индексного файла, тем не менее, не указывает его точный объем. С русскоязычными ресурсами работает плохо.


MSN Search

Поисковая система, созданная компанией Microsoft. С февраля 2005 года окончательно перешла на использование собственного поискового модуля. Декларируется учет более 5 миллиардов документов. Система обладает возможностью поиска на новостных сайтах, поиском иллюстраций, поиска в принадлежащей Microsoft энциклопедии Encarta, а также модулем, который, после бесплатной выгрузки и установки, производит поиск на собственном компьютере пользователя.


Open Directory

Справочник ресурсов Интернет, являющийся на сегодня одним из наиболее полных в мире: отражено порядка 4 миллионов ресурсов. Является некоммерческим проектом, формируясь силами Интернет-сообщества. По этой причине множество разделов Open Directory выполнены полностью на национальных языках, включая русский.


Teoma Поисковая система, открытая для использования в начале третьего тысячелетия. Единственным достоинством является внушительный объем индексного файла. Не способна осуществлять поиск документов на русском языке.
Webtop

Поисковая система, декларирующая объем базы данных более 500 миллионов документов. В настоящее время располагает примитивным механизмом составления запроса. Не обладает возможностью поиска документов на русском языке.


WiseNut Поисковая система последнего поколения. Главное достоинство - большое число проиндексированных документов. Не способна осуществлять поиск материалов на русском языке.
Yahoo! Directory

Один из наиболее авторитетных и полных справочников ресурсов Интернет. Имеет внушительный объем (порядка 2 миллионов учтенных ресурсов) и хорошо разветвленную иерархическую структуру. Удобен при разыскании перечней зарубежных, прежде всего англоязычных, сайтов по заданной тематике. Поскольку за отражение ресурса взимается ежегодная плата, многие ценные ресурсы были исключены из Yahoo! Directory и справочник в настоящее время не может претендовать на исчерпывающую полноту.

Поисковая система Yahoo!, выделившаяся в отдельный сервис после преобразования портала в 2004 году. По результатам тестов, включает порядка 4 миллиардов документов. Имеет хорошие возможности поиска иллюстраций и видеофайлов. Допускает поиск на русском языке.

Метапоисковые системы

Метапоисковые системы являются разновидностью поисковых инструментов, не имеющих собственных поисковых роботов и баз данных (индексных файлов). Их главное достоинство заключается в умении рассылать запрос сразу в несколько "реальных" поисковых систем и затем суммировать результаты. Пользование ими рекомендуется в случае разыскания сведений предположительно об очень редком объекте или при крайнем недостатке времени, поскольку метапоисковые средства очень часто не в состоянии корректно обработать запрос для различных поисковых систем, а также правильно совместить результаты, полученные разными системами.


Dogpile

Обращается к различным поисковым средствам последовательно, а не одновременно. Обеспечивает выявление данных в конференциях UseNet и на FTP-серверах, а также поиск иллюстраций, аудио- и видеофайлов.


Ez2find.com

Система обеспечивает релевантный поиск на русском языке. Имеет неплохие возможности для формирования запроса. Поиск производится в Google, AllTheWeb, Altavista, Yahoo, Open Directory. Результаты сортируются по разделам.


Ixquick Metasearch

Система по умолчанию обращается к 14 ведущим поисковым средствам, за исключением Google. В запросе используется традиционный синтаксис, в точности соответствующий используемому в Alta Vista. Перечень поисковых систем, к которым происходит обращение, может быть легко задан пользователем. Обеспечивает также поиск в новостях, разыскание иллюстраций и аудиофайлов.


KartOO

Отличительной особенностью является использование в интерфейсе flash-технологии. За счет этого достигается быстрая загрузка страницы, а также визуализация связей между сайтами, посвященными конкретной теме.


Mamma Meta Search

Относительно новая разработка. Наряду с текстовым поиском, обеспечивает выявление мультимедийных файлов. Имеет простой интерфейс, который, однако, не поддается настройке.


MetaСrawler

Ветеран метапоискового сервиса. По умолчанию обращается к 14 самым авторитетным поисковым средствам. Допускает поиск по любому слову запроса, всем словам или точной фразе. Имеет самые богатые возможности по настройке (пункт верхнего меню - Customize).


Vivisimo

Система обладаем множеством настраиваемых опций. Результаты поиска автоматически сортируются по разделам. Позволяет просматривать превью найденных страниц непосредственно из перечня результатов.


Web Crawler

Ветеран поискового сервиса, перешедший из самостаятельных поисковых ситем в метапоисковый сервис. Отличается высокой скоростью работы и достаточно высоким уровнем релевантности ссылок.

Национальные и региональные справочники и поисковые системы

В настоящее время в большинстве развитых стран существует минимум две-три справочника и поисковых систем, отражающих содержание ресурсов Интернет конкретного государства. Их использование наиболее эффективно при выявлении материалов, расположенных на серверах определенной страны. Российские инструменты поиска отражены .

Африка Wo Yaa Africa Search (http://www.woyaa.com)

Южная Африка Ananzi (http://www.ananzi.co.za)
Zebra (http://www.zebra.co.za)
Aadvark (http://www.aardvark.co.za)

Другие страны EgyptSearch Египет (http://www.egyptsearch.com) Справочник.
Maroc Search Марокко (http://www.maroc.net/search)
Азия 1001sites Ближний Восток и арабские страны Африки(http://www.1001sites.com) Справочник.
Arab Net Ближний Восток (http://www.arab.net)
Asiaco (http://www.asiaco.com) Справочник.
Search Dragon (http://www.searchdragon.com) Справочник.
Китай Ah Shun (http://www.ahshun.com) Справочник.
Network Compass (http://compass.net.edu.cn:8010) Нет англоязычного интерфейса.
ResearchSystem.com (http://www.researchsystem.com) Справочник.
Surf China (http://www.surfchina.com) Справочник.
WhatSite Китай, Тайвань, Гонконг (http://web.whatsite.com) Сервер находится в США. Справочник.
Индия 123India’s Premier search engine (http://www.123india.com)
Khoj (http://www.khoj.com) Справочник.
Гонгонг Balaa (http://www.balaa.com) Справочник.
Globepage - Asian Search Service (http://www.globepage.com)
Goyoyo (http://www.goyoyo.com.hk) Нет англоязычного интерфейса.
Search HK (http://search.hk.org)
Timway (http://www.timway.com) Справочник.
Япония Dragon Next (http://www.dragon.co.jp) Нет англоязычного интерфейса.
Fresh Eye (http://fresheye.com) Нет англоязычного интерфейса.
Goo (http://www.goo.ne.jp) Нет англоязычного интерфейса.
Moshix2 (http://www.moshix2.net)
Okay Japanese! (http://www.okay.co.jp/jpn)
Senrigan (http://senrigan.ascii.co.jp)
Сингапур Golden Village (http://www.goldenvillage.com) Справочник.
NetNet Multimedia Search Engine (http://www.netnet.com.sg)
Poyin (http://poyin.com)
TechnoFIND (http://www.technofind.com.sg)
Южная Корея AnySearch (http://www.anysearch.com) Справочник. Нет англоязычного интерфейса.
Naver (http://www.naver.com) Нет англоязычного интерфейса.
Тайвань SINANET.com (http://www.sinanet.com) Справочник.
YamWeb Navigator (http://taiwan.iis.sinica.edu.tw/en/yam) Справочник.
Другие страны BanglaSearch Бангладеш (http://www.banglasearch.com) Справочник.
CARI Малазия (http://www.cari.com.my)
iGuide Израиль (http://www.iguide.co.il) Справочник.
IndonesiaNet Индонезия (http://www.indonesianet.com/search.htm)
Libanis Ливан (http://libanis.com) Справочник.
Yehey Филлипины (http://www.yehey.com)

Австралия, Новая Зеландия, Океания AccessNZ Новая Зеландия (http://accessnz.co.nz) Справочник.
ANZWERS Австралия (http://www.anzwers.com.au) Uses Inktomi mechanism.

Здравствуйте, уважаемые читатели блога сайт. Если вы еще не знакомы, то хочу представить вам один из самых популярных онлайн сервисов рунета под названием Яндекс. Существует он аж с 1996 года и на заре своего становления это была исключительно только .

Давайте вопрос «что такое Яндекс сегодня» чуток отложим, а поговорим о том, откуда появилось такое странное название. Почему именно Яндекс ? По этому поводу существует несколько трактовок и все они отвечают на поставленный вопрос.

Правда только одна из них отражает реальный ход размышлений автора этого сверхпопулярного сейчас слова, коим был один из отцов-основателей этой поисковой системы — Илья Сегалович (к сожалению, ушедший от нас в середине прошлого года).

Почему Yandex называется Яндексом?

На приведенном фото он крайний слева. Рядом с ним стоит его соратник и второй основательно Яндекса — Аркадий Волож. Ну, а справа стоят Сергей Брин и Ларри Пейдж — . Это фото сделано в начале нашего века, когда компания Google планировала купить наш отечественный поисковик и ее руководители приезжали в Россию для переговоров, но сделка так и не состоялась.

Итак, перед Ильей стояла нелегкая задача — выбрать название для будущего поисковика (еще не доступного в то время через интернет) и при этом не ударить лицом в грязь. За основу было взято ключевое для поиска слово index (читайте про то, и как важен для них индекс, и что это вообще такое).

Было принято решение, что словообразующей фразой станет «yet another indexer», что в переводе означает «еще один индексатор». В общем, довольно-таки скромно и без всяких заявок на будущий ошеломляющий успех. Английский язык тогда в России был « » и, естественно, что поисковая система первоначально получила название именно на латинице: YANDEX (Yet Another iNDEXer).

Однако, основной фишкой Яндекса в то время (да и сейчас тоже) являлось то, что он ищет ответы в интернете . Кроме него в то время это делал только , который сейчас уже не является полноценным поисковиков. В общем, отцы-основатели решили, что нужно добавить в начале русскую букву Я вместо английской Y и получилось ЯNDEX . Это уже можно было интерпретировать, как Языковой INDEX.

В то время его главная страница выглядела так (дизайн Темы Лебедева):

В 2008 году мода на написание названий компаний латинскими буквами сошла на нет и ЯNDEX стал называться просто Яндексом .

Есть еще несколько трактовок, почему Яндекс называется именно Яндексом , и несмотря на то, что они вполне логичны и лаконичны, появились они уже после утверждения официального названия. Одну из них я уже упоминал — Языковый iNDEX.

Ну, а вторая гласит, что если взять в слове index первую букву «I» и , то как раз и получится местоимение «Я» — отсюда и ЯNDEX. Версия красивая, но несколько отличная от произошедшего в реальности.

Что такое Яндекс и что он представляет из себя сегодня?

Как я уже упоминал, на заре своего становления этот онлайн сервис был исключительно поисковой системой. Он и сейчас ею является, причем его доля на рынке рунете весьма весомая и составляет более шестидесяти процентов.

Но время текло и все менялось. С каждым новым годом существования Яндекс обрастал все новыми и новыми сервисами и возможностями. Некоторые из них дошли до нашего времени неизменными, некоторые изменились, объединились или даже закрылись, как, например, .

Сейчас, если Вы ищите товар, то наверняка обращаетесь к , чтобы подобрать оптимальный по цене и отзывам магазин. Если едите куда-то, то переходите на с отображением дорожной обстановки (пробок).

Для многих этот онлайн сервис стал порталом, с которого они ежедневно начинаю свой серфинг по интернету. Это особенно удобно потому, что , подобно рабочему столу в Виндовс, имеет возможность добавления виджетов, настройки внешнего вида за счет использования тем, а также с нее доступны все остальные сервисы этого мега-портала.

Так что же такое Яндекс ? Одним словом и не ответишь. Давайте я перечислю все сервисы собранные под его крылом, о которых мне довелось подробно писать. Наверное, так будет гораздо проще и нагляднее.

  1. — в отличии от Гугла, зеркало рунета изначально приняло решение об использовании своей главной (стартовой) страницы для удобства пользователей.

    Ну, и по аналогии с был введен Паспорт, который действителен на всей территории всех владений этой поисковой системы.

  2. — то место, куда все владельцы сайтов добавляют свои ресурсы, чтобы следить за их индексацией и видимостью в этой поисковой системе.

  3. — наверное, вторая по популярности после платежная система в рунете. Хотя, если брать в расчет , то получается, что третья.

  4. — здесь можно заказать рекламу ваших товаров или услуг на страницах поиска (реклама отображается сверху или снизу поисковой выдачи).

  5. — очень популярный среди Россиян сервис, ибо он предоставляет информацию о дорожных пробках, позволяет прокладывать маршруты и создавать свои собственные (народные) карты.

  6. — это оборотная сторона Директа. Дело в том, что Yandex обладает отлаженной системой работы с контекстной рекламой, так почему же ему ограничиваться лишь своей собственной поисковой выдачей (страницей с результатами поиска)?

    В общем, если у вас есть свой сайт с ежесуточной посещаемостью большей или равной 300 уникальных посетителей в сутки, то регистрируйтесь в Профит Партнере(официальном центре обслуживания партнеров РСЯ) и зарабатывайте, получайте призы и партнерские вознаграждения. Без балды — это .

  7. — система , которая отличается от аналогичного инструмента Гугла (Аналистикса) тем, что имеет интуитивно понятный и нарядный интерфейс, а также проста в освоении.

  8. — на рынке рунета успешно конкурирует с , ну и оттягивает на себя часть пользователей от Джимейла.

    По функционалу новая инкарнация Yandex Mail не сильно уступает последнему, а в некоторых аспектах даже превосходит. Например, имеется бесплатная возможность получения , что в Гугле сейчас стало стоить малую копеечку ().

  9. — файловое хранилище, которое призвано стать реальной альтернативой Дропбоксу (читайте про то, ) или .

  10. — новый сервис предлагающий пользователям свежую подборку материалов по интересующим их тема. Подборка формируется автоматически на основе предпочтений каждого конкретного пользотеля. Подробнее о сервисе читайте по приведенной ссылке.
  11. — поисковый движок любой СМС, на которой будет работать ваш сайт, всегда будет хуже, чем данный инструмент. Поэтому не примените его установить, ну или его аналог от Гугла.
  12. — это не сервисы, но важные инструменты, с помощью которых компания оценивает статический вес всех проиндексированных документов, а обычные пользователи могут оценить, за какую цену стоит продавать или покупать ссылки с определенных сайтов (читайте про , вечных ссылок или )
  13. — почивший в бозе (а точнее в Юкозе) бесплатный конструктор народных сайтов. Раньше не нем можно было создавать бесплатные сайты или хранить и передавать файлы (последнюю функцию на себя взял описанный чуть выше Диск)
  14. — довольно популярная надстройка над браузерами, которая, правда, самой поисковой системе гораздо нужнее, чем пользователям (установка поиска по умолчанию, домашней страницы, сбор пользовательских предпочтений и т.п.).

    Да, все это не так агрессивно реализовано, как у , но что-то общее имеется.

  15. — раньше подобная штука была в Опере (экспресс-панель), но благодаря нашему герою, теперь эти закладки можно использовать в любом браузере (устанавливаются ).

  16. — сделан на том же движке, что и Гугл Хром, но обладает рядом индивидуальных особенностей, которых нет у конкурентов.

  17. — набор кнопок для добавления анонсов статей на сайте в популярные социальные сети. Статистику этого блока можно отслеживать в Метрике.

  18. — это не сервис и не инструмент, а просто констатация того, что эта поисковая система пока еще не способна в реальном времени и обновляет поисковую выдачу дискретно через определенные неравнозначные временные интервалы, которые и принято называть апом.
  19. — может искать не только по введенным в поисковую строку словам или фразам, но и осуществлять , которую вы загрузите со своего компьютера или укажите ее местоположение в интернет.

  20. — онлайн сервис подобный .
  21. — ну, конечно же, это далеко еще не Google translate, но тоже дает очень неплохой перевод, правда на гораздо меньшее число языков.

  22. — поможет вам измерить скорость интернет канала, которым вы пользуетесь.
  23. — сервис очень удобный и вполне претендует на звание лучшего в рунете.

  24. — самый популярный каталог сайтов всего рунета, но, к сожалению, попасть туда даже на платной основе удается далеко не всем.
  25. — первый помощник тем, кто уже усвоил , ибо позволяет собрать , чтобы потом писать под них статьи.
  26. — очень специфическая вещь, которую в двух словах не объяснишь, но вы можете прочитать статью приведенную по ссылке.

Думаю, что теперь, хотя бы в общих чертах, вам стало ясно, что такое Yandex и насколько он велик и могуч. Спасибо.

Удачи вам! До скорых встреч на страницах блога сайт

посмотреть еще ролики можно перейдя на
");">

Вам может быть интересно

Виджеты Яндекса - как настроить и сделать главную страницу более информативной и удобной именно вам Яндекс Плюс - как получить пакет платных услуг за сущие копейки



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: