В чем состоит основная функция поисковых машин. Как работают поисковые машины интернета. Особенности поисковых машин

Классификация

По области поиска (условно)

Локальные

Предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети .

Глобальные

Предназначены для поиска информации по всей сети Интернет либо по значительной её части. Представителями таких поисковых машин являются поисковые системы Google , Яндекс и т. п. Поисковые машины осуществляют поиск информации различного типа, например текстов, видео, изображений, географических объектов, персональных данных и др. При этом файлы, с которыми может работать поисковая машина, могут быть как текстового формата (например.html, .htm, .txt, .doc, .rtf…), так и графического (.gif, .png, .svg…) или мультимедийного (видео и звук). Пока наиболее распространённым является именно поиск по текстовым документам.

Поисковый запрос

Исходной информацией для поиска является поисковый запрос .

Функции

Поисковые машины выполняют несколько функций:

Поиск ссылок

Поиск ссылок на страницы и другие документы сайтов.

Автоматический

Ручной режим

Пользователи сами добавляют в базу данных поисковой машины ссылки на страницы своих сайтов

Индексация документов сайтов

Извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины

Поиск по базе данных проиндексированных документов

Может состоять из нескольких этапов

Нахождение документов, соответствующих поисковому запросу

Ранжирование документов в соответствии с их релевантностью поисковым запросам

Кластеризация документов

Примечания

См. также


Wikimedia Foundation . 2010 .

Смотреть что такое "Поисковая машина" в других словарях:

    Поисковая машина - (searching engine): веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex)... Источник: ИНТЕРНЕТ РЕСУРСЫ. ТРЕБОВАНИЯ ДОСТУПНОСТИ ДЛЯ ИНВАЛИДОВ ПО ЗРЕНИЮ. ГОСТ Р 52872 2007 (утв. Приказом Ростехрегулирования от… … Официальная терминология

    поисковая машина - Веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex). [ГОСТ Р 52872 2007] Тематики информационные технологии в целом EN searching engine … Справочник технического переводчика

    В Интернет специальный веб сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Поисковая система состоит из трех компонент: 1 поискового робота; 2 индекса системы; и 3 программы,… … Финансовый словарь

    В Internet поисковая машина, которая: отсылает запрос на поиск в несколько поисковых систем; и генерирует из полученных ответов сводку (на одной странице). По английски: Meta search engine Синонимы: Мета гусеница Синонимы английские: Metacrawler… … Финансовый словарь

    Эта статья должна быть полностью переписана. На странице обсуждения могут быть пояснения. Поисковая система программно аппаратный комплекс с веб интерфейсом, предоставляющий возможност … Википедия

    Поисковая система - – (англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина) – Инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент,… … Энциклопедический словарь СМИ - Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия

Книги

  • К вопросу об эффективности поиска конкретики в Интернете , И. А. Семёнов. Согласно исследованиям Berkley, объём информации в Интернете по состоянию на 2003 год оценивался в 258, 85 терабайта, и это только общедоступные данные. По данным Internet World Stats, рост… электронная книга

Как работают поиcковые машины? Одним из замечательных свойств Интернет является то, что существуют сотни миллионов web-ресурсов, ожидающих и готовых быть представленными нам. Но плохо то, что есть те же миллионы страниц, которые, даже будучи нам нужны, не предстанут перед нами, т.к. просто неизвестны нам. Как узнать, что и где можно найти в интернет? Обычно для этого мы обращаемся к помощи поисковых машин.

Поисковые интернет машины представляют собой специальные сайты в глобальной сети, которые сделаны так, чтобы помочь людям отыскать во всемирной паутине нужную им информацию. Есть различия в способах, которыми поисковые машины выполняют свои функции, но в целом есть 3 основных и одинаковых функции:

Все они "обыскивают" интернет (или какой то сектор интернет) - на основе заданных ключевых слов;
- все поисковики индексируют слова, которые они ищут и места, где они их находят;
- все поисковики позволяют пользователям искать слова или комбинации из ключевых слов на основе уже проиндексированных и занесенных в свои базы данных web-страниц.

Самые первые поисковики индексировали до нескольких сотен тысяч страниц и получали 1,000 - 2,000 запросов в день. Сегодя топовые поисковики проиндексировали и индексируют в непрерывном режиме сотни миллионов страниц, обрабатывают десятки миллионов запросов в день. Ниже будет рассказано о том, как же работают поисковики и каким образом они "складывают" все кусочки найденной информации так, чтобы суметь ответить на любой интересующий нас вопрос.

Посмотрим на Web

Когда люди говорят о поисковых интернет машинах, они в действительности имеют в виду поисковые машины World Wide Web . Прежде, чем Web стал наиболее видимой частью интернет, уже существовали поисковые машины, которые помогали людям найти в сети информацию. Программы под названием "gopher" и "Archie" умели индексировать файлы, размещенные на разных серверах, подсоединенных к интернет Internet и многократно снижали временные затраты на поиск нужных программ или документов. В конце 80-х годов прошлого века синонимом "умения работать в интернет" было умение использовать gopher, Archie, Veronica и т.п. поисковые программы. Сегодня большинство интернет пользователей ограничивают свой поиск только всемирной сетью, или WWW.

Маленькое начало

Перед тем, как ответить вам где найти нужный документ или файл, это файл или документ должен быть уже когда то найден. Чтобы найти информацию о сотнях миллионах существующих WEB-страниц, поисковая машина применяет специальную программу-робот. Эта программа еще называется спайдер ("spider", паук) и служит для построения списка слов, найденных на странице. Процесс построения такого списка называется web-краулинг (Web crawling). Чтобы далее построить и зафиксировать "полезный" (имеющий значение) список слов, поисковый паук должен "просмотреть" массу других страниц.

Как же начинает любой паук (spider) свое путешествие по сети? Обычно стартовой точкой являются наиболее крупные мировые сервера и очень популярных web-страницы. Паук начинает свой путь с такого сайта, индексирует все найденные слова и продолжает свое движение далее, по ссылкам на другие сайты. Таким образом, робот-паук начинает охватывать все большие "куски" web-пространства. Google.com начинался с академического поисковика. В статье, описывающей как была создана эта поисковая машина, Сергей Брин и Лауренс Пейдж (основатели и владельцы Google) привели пример, как быстро работают гугловские пауки. Их несколько и обычно поиск начинается с использованием 3-х пауков. Каждый паук поддерживает до 300 одновременно открытых соединений с web-страницами. При пиковой загрузке, с использованием 4-х пауков, система Гугл способна обработать 100 страниц в секунду, генерируя траффик около 600 килобайт/сек.

Чтобы обеспечить пауков необходимыми для обработки данными, раньше Google располагал сервером, который занимался только тем, что "подбрасывал" паукам все новые и новые URL. Чтобы не зависеть от интернет сервис провайдеров в части серверов доменных имен (DNS), транслирующих url в IP адрес, Google обзавелся собственным сервером DNS, сведя все временные затраты на индексацию страниц до минимума.

Когда Google робот посещает HTML страницу, он принимает во внимание 2 вещи:

Слова (текст) на странцие;
- место их расположения (в какой части body страницы).

Слова, расположенные с служебных разделах, таких как title, subtitles, meta tags и др. помечались как особо важные для пользовательских поисковых запросов. Google паук был построен так, чтобы индексировать каждое подобное слово на странице, за исключением междометий типа "a," "an" и "the.". Другие поисковики имеют несколько другой подход к индексации.

Все подходы и алгоритмы поисковиков в конечном итоге направлены на то, чтобы заставить роботов пауков работать быстрее и эффективнее. К примеру, некоторые поисковые роботы отслеживают при индексации слова в title, ссылках и до 100 наиболее часто используемых на странице слов и даже каждое из слов первых 20 строк текстового содержания страницы. Таков алгортим индексации, в частности, у Lycos.

Другие поисковики, такие как AltaVista, идут в другом направлении, индексируя каждое отдельное слово странциы, включая "a," "an," "the" и други неважные слова.

Мета-Теги (Meta Tags)

Метатеги позволяют владельцу web-страницы задавать ключевые слова и понятия, которые определяют суть её содержания. Это очень полезный инструемнт, особенно когда эти ключевые слова могут повторяться до 2-3 раз в тексте страницы. В этом случае мета-теги могу "направить" поисковый робот к нужному выбору ключевых слов для индексации страницы. Существует вероятность "накрутки" мета-тегов сверх популярными поисковыми запросами и понятиями, никак не связаннными с содержанием самой старницы. Поисковые роботы умеют бороься с этим, путем, например, анализа корреляции мета-тегов и содержимого web-страницы, "выкидывая" из рассмотрения те мета-теги (соответственно ключевые слова) , которые не соответствуют содержимому страниц.

Все это касается тех случаев, когда владелец web-ресурса действительно желает быть включенным в поисковые результаты по нужным поисковым словам. Но нередко случается так, что владелец совсем не желает быть проиндексированным роботом. Но такие случаи не относятся к теме нашей статьи.

Построение индекса

Как только пауки закончили свою работу по нахождению новых web-страниц, поисковые машины должны разместить всю найденную информацию так, чтобы было удобно в дальнейшем ею пользоваться. Здесь имеют значение 2 ключевых компонента:

Информация, сохраненная вместе с данными;
- метод, которым эта информация проиндексирована.

В простейшем случае, поисковик мог бы просто разместить слово и URL адрес, где оно находится. Но это сделало бы поисковик совсем примитивным инструментом, так как нет никакой информации о том, в какой части документа находится это слово (мета-тегах, или в обычном тексте), используется ли это слово один раз или многократно и содержится ли оно в ссылке на другой важный и близкий по теме ресурс. Другими словами, такой способ не позволит ранжировать сайты, не обеспечит представление пользователям релевантных результатов и т.д.

Чтобы предоставить нам полезные данные, поисковики сохраняют не только информацию из слова и его URL адрес. Поисковик может сохранить данные о количестве (частоте) упоминаний слова на странице, присвоить слову "вес", что далее поможет выдавать поисковые листинги (результаты) на основе весового ранжирования по данному слову, с учетом его местонахождения (в ссылках, мета тегах, титуле страницы и т.п.). У каждого коммерческого поисковика есть своя формула для вычисления "веса" ключевых слов при индексации. Это одна из причин, почему по одному и тому же поисковому запросу поисковики выдают совсем разные результаты.

Следующий важный момент при обработке найденной информации - её кодирование с целью уменьшения объема дискового пространства для её сохранения. Например, в оригинальной статье Google описано, что для хранения весовых данных слов используется 2 байта (по 8 бит каждый) -- при этом учитывается вид слова (большими или прописными буквами), размер самих букв (Font-Size) и др. информация, которая помогает ранжировать сайт. Каждый такой "кусочек" информации требует 2-3 бита данных в полном 2-байтном наборе. В результате громадный объем информации удается сохранять в очень компактном виде. После того, как информация "сжата", пора приступать к индексации.

Цель индексация одна: обеспечить максимально быстрый поиск нужной информации. Существуют несколько путей для построения индексов, но самый эффективный - это построение хеш-таблиц (hash table). При хешировании используется определенная формула, с помощью которой каждому слову присваивается некое численное значение.

В любом языке существуют буквы, с которых начинается гораздо больше слов, чем с остальных букв алфавита. К примеру, слов на букв "M" в разделе английского словаря значительно больше, чем на букву "X". Это означает, что поиск слова, начинающегося с самой популярной буквы потребует больше времени, чем любое другое слово. Хешинг (Hashing) уравнивает эту разницу и уменьшает среднее время поиска, а также разделяет сам индекс от реальных данных. Хеш таблица содержит хеш-значения вместе с указателем на данные, соответствующие этому значению. Эффективная индексация + эффективное размещение вместе обеспечивают высокую скорость поиска, даже если пользователь задаст очень сложный поисковый запрос.

Будущее поисковиков

Поиск, основанный на булевских операторах ("and", "or", "not") - это буквенный поиск -- поисковик получает поисковые слова ровно так, как они введены. Это может вызвать проблему, когда, например, введенное слово имеет множество значений. "Ключ," например, может означать "средство для открытия двери", а может означать "пароль" для входа на сервер. Если вас интересует только одно значение слова, то вам, очевидно, будут не нужны данные по его второму значению. Можно, конечно, построить буквальный запрос, который позволит исключить вывод данных по ненужному значению слова, но было бы неплохо, если бы поисковик смог сам помочь вам.

Одна из областей исследований в области алгоритмов будущих поисковых машин - это концептуальный поиск информации. Это такие алгоритмы, кгда для нахождения релевантных данных используется статистический анализ страниц, содержащих данное поисковое ключевое слово или фразу. Ясно, что такой "концептуальной поисковой машине" потребуется гораздо больший объем для хранения данных о каждой странице и больше времени для обработки каждого запроса. В настоящее время многие исследователи работают над этой проблемой.

Не менее интенсивно ведутся работы и в области разработки поисковых алгоритмов на основе запросов естественного языка (Natural-Language query).

Идея естественных запросов состоит в том, что вы можете написать запрос так, как если бы спросили об этом коллегу, сидящего напротив вас. Не надо беспокоиться о булевских операторах или напрягаться для составления сложного запроса. Самый популярный на сегодня поисковый сайт на основе языка естественных запросов - это AskJeeves.com. Он преобразует запрос в ключевые слова, которые затем и использует при индексировании сайтов. Этот подход работает только в случае простых запросов. Однако, прогресс не стоит на месте, возможно, что совсем скоро мы будем "разговаривать" с поисковыми машинами на своем, "человеческом языке".

Принцип работы, преимущества и недостатки поисковых машин

Наряду с кaтaлoгaми (и дaжe гоpaздo чaщe) иcпoльзуютcя пoиcкoвыe мaшины. Это уже более современный и удобный способ навигации и поиска в Сети. В отличие от каталогов, поисковая система - это полностью автоматизированная структура.

К преимуществам поисковых машин следует отнести: малое количество в результатах поиска устаревших ссылок; намного большее количество Web-узлов, по которым производится поиск; более высокая скорость поиска; высокая релевантность поиска; наличие дополнительных сервисных функций, облегчающих работу пользователя, например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов «по образцу» и так далее.

В основу работы поисковых машин заложены совершенно иные технологические принципы. Задача поисковых машин - обеспечивать детальное разыскание информации в электронной вселенной, что может быть достигнуто только за счет учета (индексирования) всего содержания максимально возможного числа web-страниц. В отличие от каталогов, поисковые машины функционируют в автоматизированном режиме и имеют одинаковый принцип действия. Поисковые системы состоят из двух базовых компонентов. Первый компонент представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и скачивать их на главный компьютер системы. При этом робот, просматривая содержимое документа, находит новые ссылки, как на другие документы данного сервера, так и на внешние сайты. Программа самостоятельно направляется по указанным ссылкам, находит новые документы и ссылки в них, после чего процесс повторяется вновь, напоминая хорошо известный в библиографии «метод снежного кома». Выявленные документы обрабатываются (индексируются) вторым компонентом поисковой системы. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио и видеофайлы. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, и cocтaвляют бaзу дaнных, к кoтopoй происходит обращение пользователей, вводящих в строку запроса сочетания ключевых слов. Браун Маркус.: Методы поиск информации в Интернете. - М.: Новый Издательский дом, 2005г. - 136стр.

Выдача результатов осуществляется с помощью специального модуля, который производит интеллектуальное ранжирование результатов. При этом берется в расчет местоположение термина в документе (название, заголовок, основной текст), частота его повторения, процентное соотношение искомого термина к остальному тексту cтpaницы, a тaкжe чиcлo и aвтopитeтнocть внeшних ccылoк нa дaнную cтpаницу c дpугих caйтoв.

Однако у поисковых машин существуют некоторые недостатки: ограниченная область поиска. Если какой - либо сайт не был внесен в бaзу дaнных пoиcкoвoй мaшины, oн для неё не «существует», и его документы в результаты поиска попасть не могут; относительная сложность использования. Для того чтобы составленный запрос на поиск точно соответствовал тому, что именно требуется найти, нужно хотя бы немного представлять, как работает поисковая машина, и уметь использовать простейшие логические операторы. Поисковые каталоги в этом смысле проще и привычнее; менее наглядная форма представления результатов запроса. Каталог выдает название сайта с его краткой аннотацией и другой полезной информацией. Результаты работы пoиcкoвoй мaшины мeнee нaглядны; пocкoльку бaзу дaнных пoиcкoвoй мaшины пополняют программы - роботы, нечестные владельцы рекламных сайтов могут их «обмануть», из-за чего релевантность поиска может быть значительно снижена.

Поисковые машины (sеаrch еnginуs) более распространены чем каталоги, и число их, составляющее сегодня нескольких десятков, продолжает неуклонно увеличиваться. Профессиональная работа с ними требует специальных нaвыкoв, тaк кaк пpocтoй ввoд иcкoмoгo тepминa в пoиcкoвую cтpoку, cкopee вceгo, пpивeдeт к пoлучeнию cпиcка из coтeн тыcяч дoкумeнтoв, coдepжaщих дaннoe пoнятиe, что практически равносильно нулевому результату.(http://www.gogle.com/)

Данная поисковая машина запущена в 1998 году. В настоящий момент эта система пo вceм знaчимым пapaмeтpaм являeтcя eдинoличным лидepoм cpeди глoбaльных пoиcкoвых cиcтeм. Google является одной из самых популярных поисковых систем. Свое название эта поисковая система получила от слова «Googol», которое обозначает число, записанное как единица со 100 нулями. Google обладает поддоменами для большого количества стран - для России, например, это www.google.com.ru.

Поисковая машина Google найдет по запросу пользователя не только гипертекстовые документы, но и файлы формата doc, pdf, mp3 и так далее. Google может похвастаться своим качественным «движком», который осуществляет поиск в Интернете по запросам пользователей. Релевантность - степень соответствия найденных результатов поиска запросу - у Google часто выше, чем у российских поисковиков, например Яндекса. Именно по этой причине все больше пользователей Интернета начинают использовать Google в качестве основной поисковой системы. Поисковик Google использует алгоритм ссылочного ранжирования PageRank, который определяет авторитетность сайта при формировании списка результатов поиска. PageRank схож с индексом цитирования у Яндекса и зависит от качества и количества ссылок на этот сайт. Благодаря PageRank пользователи находят в Интернете именно то, что ищут.

Поисковая машина Google копирует в свою базу все страницы (кэширует), благодаря чему пользователь может просмотреть страницу, открыв ее из кэша Google, а не из первоисточника, что позволяет значительно уменьшить время поиска. Особенностью Google является и то, что поисковик индексирует полностью все страницы. Также стоит отметить возможность Google искать изображения различного качества, размера, формата. Введя в строку поиска арифметическое выражение, можно получить верный ответ от Google. Чтобы воспользоваться поиском Google необязательно заходить на www.google.com.ru - можно установить программу Google Toolbar, которая создаст в браузере панель инструментов с поисковой строкой, в которой можно ввести свой запрос.

Помимо перечисленных глобальных поисковых систем, в некоторых случаях, скорее по инерции, продолжают использоваться устаревшие поисковые сервисы, среди которых наиболее заметны HotBot (http://www.hotbot.com/) и Excite (http://www.excite.com/). Малый объем их индeкcных фaйлoв нa ceгoдня не позволяет полагаться на предоставляемые ими сведения. "Молодая" поисковая система как Ask (http://www.ask.com/) несмотря на внушительный объем проиндексированных документов, пока не представляет особого интереса. Ask, к примеру, не способн осуществлять поиск документов на русском языке.

ПОИСКОВАЯ СИСТЕМА В ИНТЕРНЕТЕ

В Интернете хранится огромное количество полезной информации, но на поиски нужной может потребоваться много времени. Это одна из основных проблем, послужившая поводом к появлению поисковых машин. Поисковые машины Интернета связаны с базами данных, которые содержат каталоги значительной части информации, доступной в Интернете. Поисковые машины снабжены программами, которые делают индексацию баз данных, а люди-библиотекари классифицируют, сортируют и превращают Web в открытую для поиска среду. Несмотря на то, что существует более 100 поисковых машин и инструментов просмотра, пользователи нередко испытывают неудовлетворенность, вызванную трудностями при поиске необходимой им информации. И основным вопросом на сегодняшний день остается не наличие той или иной информации в Интернете, а вопрос о том, где ее искать.

Поисковые машины состоят из трех основных элементов. Первым элементом является индексатор, или, как его еще называют, «паук». Индексатор считывает информацию с web-страницы и переходит по ссылкам на другие страницы этого же webсайта. Web-сайты просматриваются регулярно, раз в месяц или раз в два месяца; это необходимо, чтобы следить за изменениями. Все данные о найденной информации поступают во вторую часть поисковой машины, индекс, или, как его иногда называют, каталог. Это что-то вроде огромной книги, которая хранит оглавление каждой найденной индексатором web-страницы. При изменении web-страницы обновляется и информация о ней в индексе. Иногда новые страницы или изменения попадают в каталог не сразу. А пока данные о web-странице не попали в каталог, страница недоступна для поисковой машины. Программное обеспечение поисковой машины - ее третья составляющая. Эта программа просеивает миллионы записанных в каталог страниц, чтобы найти информацию, отвечающую цели поиска, и затем ранжирует их по степени соответствия заданной цели. Поисковые машины, разработанные для анализа web-сайтов, базируются на использовании запросов. Пользователь набирает слова или фразы, соответствующие интересующей его теме.

Специальная программа (паук) «ползет» по Web-у и, затем, используя специальные алгоритмы поиска, за несколько секунд находит требуемые данные. Отвечая на поисковый запрос, поисковая машина перебирает миллионы источников и находит адреса соответствующих документов. Поисковые машины выдают аннотированные списки гиперссылок на соответствующие Интернет страницы. Если щелкнуть мышью по гиперссылке, то соответствующий ей адрес будет использован для нахождения текста, изображений и ссылок на другом компьютере. Поисковые машины Интернета со своими огромными каталогами web-страниц непрерывно совершенствуют алгоритмы поиска и расширяют свою функциональность. Каждая поисковая машина обладает индивидуальностью (имеет свои особые характеристики) и работает по-своему. Работа многих поисковых машин считается вполне успешной. Однако все современные системы страдают некоторыми серьезными недостатками:



1. Поиск по ключевым словам дает слишком много ссылок, и многие из них оказываются бесполезными.

2. Огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.

3. Методы индексирования баз данных, как правило, семантически не связаны с информационным содержанием.

4. Неадекватные стратегии поддержки каталогов часто приводят к тому, что выдаются ссылки на информацию, которой уже нет в Интернете.

5. Поисковые машины еще не столь совершенны, чтобы понимать естественный язык.

6. При том уровне доступа, который обеспечивают современные поисковые машины, практически невозможно сделать обоснованный вывод о полезности источника.

В последнее время потребности в интеллектуальной помощи быстро растут: помощь необходима для продуктивного поиска информации, для нахождения в необъятном Интернете или корпоративной сети специализированной информации. Это привело к появлению интеллектуальных агентов. Обычно интеллектуальные агенты являются составной частью поисковой машины. Некоторые особо продвинутые программы похожи на живых ассистентов. Для поиска и сортировки информации используются технологии искусственного интеллекта. Такая поисковая машина «думает» и действует сама. Пользователь обучает агента, затем агент отправляется на поиски в Интернет, чтобы из миллионов доступных документов выбрать нужные и дать им оценку. Пользователь может в любой момент «отозвать» интеллектуального агента и посмотреть, как продвигается работа, или продолжить его обучение на основе найденной информации, что сделает поиск еще более точным. В таблице 3 приведены примеры интеллектуальных агентов и их характеристики.

Интеллектуальные агенты выполняют ряд инструкций от имени пользователя или другой программы, могут работать независимо и иметь некоторую степень автономности в сети. Между интеллектуальными агентами и Java-апплетами существуют некоторые различия. Java-апплеты загружаются из Интернета и работают на машине пользователя. Интеллектуальные агенты фактически выходят в сеть и ищут приложения, помогающие завершить задание, выполняют свою миссию удаленно, освобождая компьютер пользователя для других задач. Когда цель достигнута, они извещают пользователя об окончании работы и представляют ему результаты.

Интеллектуальные агенты способны «понимать», какая именно информация нужна пользователю. Агенты могут быть запрограммированы на изменение поведения в зависимости от накопленного опыта и взаимодействий с другими агентами. Обобщенные характеристики интеллектуальных агентов могут быть представлены следующим образом:

Интеллектуальность - обучение на основе обратной связи, по примерам, ошибкам и посредством взаимодействия с другими агентами.

Простота использования - можно «тренировать» агентов, используя естественный язык.

Индивидуальный подход - агенты адаптируются к предпочтениям пользователя.

Интегрированность - непрерывное обучение, применение уже имеющихся знаний к новым ситуациям, развитие ментальной модели.

Автономность - агенты способны «ощущать» окружающую среду и реагировать на ее изменение, умеют делать выводы.

Таблица 3

Примеры интеллектуальных агентов и их характеристики.

Масштабы информационных ресурсов и их количество в Интернете непрерывно расширяются. Становится ясно, что централизованная база данных, характерная для поисковых машин, не является удовлетворительным решением. Интеллектуальные агенты - это совершенно новое направление, лежащее в основе следующего поколения поисковых машин, которые смогут фильтровать информацию и добиваться более точных результатов. Например, Hyperlink-Induced Topic Search Engine, разработанная Джоном Клейнбергом из Корнэльского университета. Эта поисковая система не занимается «охотой» за ключевыми словами. Система анализирует естественную структуру Web в поисках «сообществ» страниц, относящихся к конкретному предмету, затем выясняет, какие из этих страниц считаются значимыми с точки зрения самих авторов страниц. Эта идея аналогична показателям цитируемости, которые давно используются в академическом сообществе. Такой подход более эффективен и надежен, чем традиционный поиск по ключевым словам.

Поиск информации в Интернете -- одна из наиболее востребованных операций в Интернете. Посетителям Интернета часто приходится искать документы по какой-либо тематике. Если у вас есть точный адрес документа в Интернете, то в этом случае проблем с поиском не возникает: в браузере в адресной строке можно набрать известный адрес ресурса, и при удачном соединении браузер выведет на экран нужную страницу.

Если точного адреса документа нет, то можно воспользоваться услугами поисковой машины. Поисковая машина? это «специализированный сервер в Интернете, который предлагает разнообразные средства поиска документов» . Пример поискового сервера -- сервер Рамблер (Rambler.ru), расположенный по адресу http://rambler.ru. Вид головной страницы сервера приведен на рисунке.

Рис. 1.

Поисковые серверы обычно составляют собственные каталоги ресурсов Интернета. Каталоги поисковых серверов регулярно пополняются информацией о создаваемых в сети ресурсах, которая поступает от поисковых роботов. Поисковые роботы или пауки -- это специальные сетевые программы, которые обращаются к доступным на текущий момент серверам Интернета, проводят анализ документов и пополняют таблицы своей поисковой машины. Работа по поиску и систематизации ресурсов поисковые роботы выполняют в фоновом режиме круглосуточно.

Еще один источник поступления на поисковые серверы информации о существующих сайтах -- явная регистрация ресурсов владельцами web-страниц. На сервере имеются формы, которые заполняют владельцы ресурсов. В форме задается адрес ресурса, краткая характеристика, ключевые слова, целевая аудитория и пр. Эта информация анализируется и добавляется в каталоги сервера автоматически специальными программами или «вручную» экспертами -- специалистами, следящими за формированием каталогов ресурсов.

Понимание механизмов поиска информации в Интернете позволяет разработчикам web-страниц готовить свои документы так, чтобы они могли быть в дальнейшем найдены поисковыми машинами и размещены в соответствующих разделах каталога ресурсов.

Поиск по ключевым словам в Интернет

Один из популярных способов поиска документов в сети WWW -- поиск по ключевым словам. При задании ключевых слов в поисковой форме поисковая машина будет искать документы, содержащие заданные ключевые слова. Разумеется, для выполнения запроса поисковая машина не станет исследовать содержание тысяч работающих в Интернете компьютеров -- результат такого поиска вам пришлось бы ждать не один день. Поиск ведется среди тех ресурсов (каталогов, таблиц) поисковой машины, которые были ранее собраны и систематизированы с помощью роботов и экспертов.

Поскольку объем ресурсов сети становится поистине безграничным, то по запросу на поиск документа по ключевому слову поисковая машина может найти несколько тысяч документов, содержащих указанное ключевое слово. Понятно, что в таком количестве документов трудно найти тот, который лучше всего соответствует заданной теме. Однако поисковые машины обычно дают возможность сформулировать более детальный запрос.

Запрос может иметь сложную форму и составляться с помощью ключевых слов и логических функций И (AND), ИЛИ (OR), отрицания (NOT) . Или же запрос на поиск может формироваться с помощью специальных символов, позволяющих задать (или отменить) словоформы ключевых слов. Такие механизмы помогают более точно сформулировать требования для отбора документов. Каждая поисковая машина имеет справочную систему, которая поможет посетителю составить поисковый запрос.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: