Что представляет собой индексирование документов его этапы. Процессы поисковых систем. Почему «Яндекс» отказывает

Итак, друзья, сегодня я продолжаю серию статей о поисковых системах. Эта — четвертая, в которой я изложу взгляд на поисковые системы изнутри, на технологию работы поисковых машин. Для чего? Как говорил один из моих комментаторов по поводу изучения их работы, — «врага надо знать в лицо»:). Что же, давайте изучим этого «врага» более детально и тщательно.

Для тех, кто не прочел предыдущие три статьи, вот ссылки: , .

А теперь читаем статью

Современные поисковые машины обрабатывают десятки тысяч обращений в
секунду. Как это это происходит?

Поисковые системы на физическом уровне

Современная поисковая машина - это сложнейшая структура, состоящая из сотен тысяч, а в Google - миллионов физических серверов. Вся , которая на них хранится, распределена и надежно защищена по дата-центрам всего мира.

Серверное помещение Яндекса

При своем зарождении, в «далеком» 1997 году обработкой запросов для пользователей Яндекса и выдачей результатов поиска занимался всего один сервер, который располагался в кабинете одного из основателей компании и который был слабее любого современного домашнего компьютера! Представляете, как все быстро менялось, если уже к 2000 году у Яндекса было около 50 серверов. Каждый месяц число серверов увеличивалось и, со временем, это привело к появлению собственного дата-центра (сейчас у Яндекса их уже четыре). Современный дата-центр - это сотни серверов, объединенных в единую сеть, которые позволяют справляться с большим объемом запросов и высокой посещаемостью сервиса. Вот характерный пример: посещаемость только поиска Яндекса за февраль 2012 года составила 28,3 миллиона человек.

Логическая схема работы поисковых систем

Когда пользователь хочет что-то найти в интернете, он вводит запрос. Этот запрос обрабатывается «балансировщиком нагрузки» - специализированным устройством, которое автоматически перенаправляет запрос пользователя в наименее загруженный на данный момент кластер . Это позволяет максимально эффективно использовать имеющиеся вычислительные мощности.

Затем поисковый запрос перенаправляется в «метапоиск» . Эта система получает все необходимые данные и узнает, к какому типу данных этот запрос относится. На этом же этапе запрос проверяется на орфографию, здесь же определяется, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты.

Логическая схема обработки запроса Яндекса

Далее метапоиск проверяет, не было ли похожего запроса к системе в последнее время. Это связано с тем, что некоторые запросы становятся весьма популярными в определенные моменты происходящие в мире и Сети (значимое событие, катастрофа или даже рекламная кампания нового продукта),некоторые популярны постоянно (например, связанные с событиями в социальных сетях). Чтобы снизить нагрузку, поисковая система некоторое время хранит ответы на запросы пользователей в кэше и в случае повторных обращений, показывает уже готовые результаты, вместо того чтобы формировать ответы заново. Если при проверке не получилось найти уже готовый ответ в кэше, поисковая система начинает формирование нового ответа и запрос пользователя передается дальше, на серверы «базового поиска». Именно в базовом поиске находится индекс поисковой системы , разбитый на отдельные части и распределенный по серверам, поскольку поиск по частям всегда быстрее. Стоит обратить внимание, что каждый сервер имеет несколько копий. Это позволяет не только защитить информацию от потери, но и распределить нагрузку. Если информация с конкретного сервера окажется слишком востребованной и один из серверов будет перегружен, проблема решится подключением копий этого сервера. По результатам поиска каждый сервер базового поиска возвращает метапоиску результаты, связанные с запросом пользователя. Далее к работе подключается алгоритм ранжирования «Матрикснет» , который и определяет, на каком месте в поисковой выдаче будет каждая конкретная ссылка.

А теперь перейдем к наиболее животрепещущему вопросу для каждого обладателя сайта и выясним. как же происходит

Процесс индексирования

Индексация - это такой процесс, во время которого поисковые роботы «совершают поход» по сайтам и собирают с их страниц разнообразную информацию и заносят ее в специальные базы данных. Вот завести с ними личное знакомство! 🙂 Потом эти данные каким-то образом обрабатываются, и по ним строится индекс - выжимка из документов(веб страниц). Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.
Рассмотрим процесс индексирования на примере Яндекса. В поисковой системе есть 2 типа роботов: быстрый (быстро-робот) и основной.
Задача основного робота - индексация всего контента, а быстрого - занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

Последовательность процессов индексирования Яндекса.

Документы в индекс попадают двумя способами:

1) Автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам,

2) Либо владелец сайта может сам добавить URL через специальную форму(«аддурилка») или через установленную на сайте Яндекс.Метрику. Этот передает url страниц на индексацию Яндексу. При желании можно не устанавливать код Метрики на сайт или отключить данную опцию ее в интерфейсе.

Честно говоря, я не могу сказать, способствует ли Метрика Яндекса более быстрому индексированию страниц сайтов и мнения вебмастеров по поводу ее работы диаметрально противоположны: от хвалебных од, до бескомпромиссной критики. Некоторые считают ее действие положительно сказывается на скорости индексаци, некоторые — что она тормозит этот процесс. Комментаторы, делитесь личным опытом и наблюдениями!

А теперь мы плавно перешли к понятию

Скорость индексации и обновления страниц

В идеале, вновь созданная страница должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют скорость индексации новых страниц и обновления старых. Роботы поисковых систем постоянно обновляют поисковую базу данных, но чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам и другие ненужные, по мнению поисковой машины, документы. Однако для некоторых типов информации такая скорость обновление неприемлема. Например процесс индексирования новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для ускорения индексации часто обновляемых страниц и существует специальный «быстрый робот» , который посещает новостные сайты несколько раз в день.

Не думайте, что поисковые роботы лентяи — они стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладывают ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap, отсутствия ошибок, мешающих нормальной индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, метатеги, теги, атрибуты noindex и nofollow.
Robots.txt - это текстовый файл, в котором можно задавать параметры индексирования как для всех поисковых роботов сразу, так и по отдельности.
Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow - за индексацию ссылок. Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах. Существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в
определенных блоках и т.д.

Типы роботов поисковых систем

Среди всех существующих поисковых роботов стоит выделить четыре основных:
➜➜ индексирующий робот,
➜➜ робот по изображениям,
➜➜ робот по зеркалам сайта;
➜➜ робот, проверяющий работоспособность сайта или страницы.
Некоторые посторонние роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить подлинность
робота с помощью идентификации, основанной на обратных DNS-запросах.

Определить, какой робот к тебе
зашел, можно с помощью лог-
файла, который обычно доступен
либо в админке, либо на ftp. Все
существующие роботы представ-
ляются по одной схеме, но каж-
дый имеет свое название. На-
пример: «Mozilla/5.0 (compatible;
YandexBot/3.0; +http://yandex.
com/bots)» - основной индекси-
рующий робот Яндекса.

Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска. Робот по изображениям заносит в индекс графическую информацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например, Яндекс.Картинки или Картинки Google. Робот, определяющий зеркала, проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковика будет только один сайт - главное зеркало.

Существуют так же другие твиды индексирующих роботов: индексаторы видео; пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках новостных сайтов и др.
Важно понимать, что процесс индексации является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений может оказаться видимым только через 1-2 недели. Существует еще специальный робот, который проверяет доступность сайта, добавленного через форму «Добавить URL» в Яндекс.Вебмастер.

Что бы не утомлять вас более очень длинной статьей, просто скажу, что

Продолжение следует…

(Visited 10 times, 1 visits today)

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подписаться


Индексация сайта - это процесс поиска, сбора, обработки и добавления сведений о сайте в базу данных поисковых систем.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Индексация сайта значит, что робот поисковой системы посещает ресурс и его страницы, изучает контент и заносит его в базу данных.Впоследствии эта информация выдается по ключевым запросам. То есть, пользователи сети вводят в строку поиска запрос и получают на него ответ в виде списка проиндексированных страниц.

Если говорить простым языком, получится приблизительно так: весь интернет - это огромная библиотека. В любой уважающей себя библиотеке есть каталог, который облегчает поиск нужной информации. В середине 90-х годов прошлого века, вся индексация сводилась к такой каталогизации. находили на сайтах ключевые слова и формировали из них базу данных.

Сегодня боты собирают и анализируют информацию по нескольким параметрам (ошибки, уникальность, полезность, доступность и проч.) прежде, чем внести ее в поисковой системы.

Алгоритмы работы поисковых роботов постоянно обновляются и становятся все сложнее. Базы данных содержат огромное количество информации, несмотря на это поиск нужных сведений не занимает много времени. Это и есть пример качественной индексации.

Если сайт не прошел индексацию, то информация до пользователей может и не дойти.

Как индексирует сайты Гугл и Яндекс

Яндекс и Гугл, пожалуй, самые популярные поисковики в России. Чтобы поисковые системы проиндексировали сайт, о нем нужно сообщить. Сделать это можно двумя способами:

  1. Добавить сайт на индексацию при помощи ссылок на других ресурсах в интернете - этот способ считается оптимальным, так как страницы, найденные таким путем, робот считает полезными и их индексирование проходит быстрее, от 12 часов до двух недель.
  2. Отправить сайт на индексацию путем заполнения специальной формы поисковой системы вручную с использованием сервисов Яндекс.Вебмастер, Google Webmaster Tools, Bing Webmaster Tools и др.

Второй способ медленнее, сайт встает в очередь и индексируется в течение двух недель или больше.

В среднем, новые сайты и страницы проходят индексацию за 1–2 недели.

Считается, что Гугл индексирует сайты быстрее. Это происходит потому, что поисковая система Google индексирует все страницы - и полезные, и неполезные. Однако в ранжирование попадает только качественный контент.

Яндекс работает медленнее, но индексирует полезные материалы и сразу исключает из поиска все мусорные страницы.

Индексирование сайта происходит так:

  • поисковый робот находит портал и изучает его содержимое;
  • полученная информация заносится в базу данных;
  • примерно через две недели материал, успешно прошедший индексацию, появится в выдаче по запросу.

Есть 3 способа проверки индексации сайта и его страниц в Гугл и Яндексе:

  1. при помощи инструментов для вебмастеров - google.com/webmasters или webmaster.yandex.ru;
  2. при помощи ввода специальных команд в поисковую строку, команда для Яндекс будет выглядеть так: host: имя сайта+домен первого уровня; а для Гугл - site: имя сайта+домен;
  3. с помощью специальных автоматических сервисов.

Проверяем индексацию

Это можно сделать используя:

  1. операторы поисковых систем - смотрим в справке или ;
  2. услуги специальных сервисов, например rds бар ;

Как ускорить индексацию сайта

От того, насколько быстро роботы проведут индексирование, зависит скорость появления нового материала в поисковой выдаче, тем быстрее на сайт придет целевая аудитория.

Для ускорения индексации поисковыми системами нужно соблюсти несколько рекомендаций.

  1. Добавить сайт в поисковую систему.
  2. Регулярно наполнять проект уникальным и полезным контентом.
  3. Навигация по сайту должна быть удобной, доступ на страницы не длиннее, чем в 3 клика от главной.
  4. Размещать ресурс на быстром и надежном хостинге.
  5. Правильно настроить robots.txt: устранить ненужные запреты, закрыть от индексации служебные страницы.
  6. Проверить на наличие ошибок, количество ключевых слов.
  7. Сделать внутреннюю перелинковку (ссылки на другие страницы).
  8. Разместить ссылки на статьи в социальных сетях, социальных закладках.
  9. Создать карту сайта, можно даже две, - для посетителей и для роботов.

Как закрыть сайт от индексации

Закрыть сайт от индексации - запретить поисковым роботам доступ к сайту, к некоторым его страницам, части текста или изображению. Обычно это делается для того, чтобы скрыть от публичного доступа секретную информацию, технические страницы, сайты на уровне разработки, дублированные страницы и т. п.

Сделать это можно несколькими способами:

  • При помощи robots.txt можно запретить индексацию сайта или страницы. Для этого в корне веб-сайта создается текстовый документ, в котором прописываются правила для роботов поисковых систем. Эти правила состоят из двух частей: первая часть (User-agent) указывает на адресата, а вторая (Disallow) запрещает индексацию какого-либо объекта.
    Например, запрет индексации всего сайта для всех поисковых ботов выглядит так:

User-agent: *

Disallow: /

  • При помощи мета-тега robots, что считается наиболее правильным для закрытия одной страницы от индексирования. При помощи тегов noindex и nofollow можно запретить роботам любых поисковых систем индексировать сайт, страницу или часть текста.

Запись для запрета индексации всего документа будет выглядеть так:

Можно создать запрет для конкретного робота:

На что влияет индексация при продвижении

Благодаря индексации сайты попадают в поисковую систему. Чем чаще обновляется контент, тем быстрее это происходит, так как боты чаще приходят на сайт. Это приводит к более высокой позиции при выдаче на запрос.

Индексация сайта в поисковых системах дает приток посетителей и способствует развитию проекта.

Кроме контента, роботы оценивают посещаемость и поведение посетителей. На основании этих факторов они делают выводы о полезности ресурса, чаще посещают сайт, что поднимает на более высокую позицию в поисковой выдаче. Следовательно, трафик снова увеличивается.

Индексация - это важный процесс для продвижения проектов. Чтобы индексирование прошло успешно, поисковые роботы должны убедиться в полезности информации.

Алгоритмы, по которым работают поисковые машины, постоянно меняются и усложняются. Цель индексации - внесение информации в базу данных поисковых систем.

Каждый процесс, происходящий в поисковых системах, уникален и интересен. Зная архитектуру поисковой системы, можно понимать причины "выпадения" сайта из выдачи или повышения позиций. Рассмотрим каждый процесс в отдельности.

Индексация - это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс - выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.

Рассмотрим процесс индексации на примере поисковой системы Яндекс.

В поисковой системе есть 2 типа роботов: быстрый и основной . Задача основного робота - индексация всего контента, а быстрого - занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования Яндекса, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит обновление содержащейся на ней информации.

Документы в индекс попадают следующими способами: автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам, ибо если владелец сайта сам добавил URL через специальную форму или через установленную на сайте Яндекс.Метрику . Этот сервис передает URL страниц на индексацию Яндексу. При необходимости в интерфейсе Метрики можно отключить данную опцию.

Скорость индексации и обновления страниц сайта

В идеале, как только создана новая страница, она должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют индексацию новых страниц и обновление старых. Роботы поисковых систем постоянно обновляют базу данных, но, чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам, и другие ненужные, по мнению поисковика, документы.

Робот, определяющий зеркала , проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковой системы будет только один сайт - главное зеркало.

Специальный робот проверяет доступность сайта, добавленного через форму «Добавить URL » в Яндекс.Вебмастере.

Существуют и другие типы индексирующих роботов: индексаторы видео и пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках типа Яндекс.Новостей и др.

Важно понимать, что процесс индексации сайта является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений будет виден только через 1-2 недели.

Индексирование

Индексирование

Индексирование - в информационном поиске - процесс описания документов и запросов в терминах информационно-поискового языка. По результатам индексирования каждому документу назначается набор ключевых слов, отражающих его смысловое содержание.

По-английски: Indexing

Финансовый словарь Финам .


Синонимы :

Смотреть что такое "Индексирование" в других словарях:

    Индексация Словарь русских синонимов. индексирование сущ., кол во синонимов: 1 индексация (1) Словарь синонимов ASIS. В.Н. Тришин … Словарь синонимов

    индексирование - Выражение содержания документа и/или смысла информационного запроса на информационно поисковом языке. [ГОСТ 7.74 96] индексирование Процесс описания содержания документов и запросов в терминах информационно поискового языка; назначение документу… … Справочник технического переводчика

    Выражение главного содержания текста какого либо документа в терминах языка информационно поисковой системы. Применяется для облегчения поиска нужного документа среди множества других … Большой Энциклопедический словарь

    индексирование - 3.5 индексирование (indexing): Процесс проставления условных обозначений и составления указателей, служащих для упрощения доступа к документам и (или) информации. Источник … Словарь-справочник терминов нормативно-технической документации

    Индексирование - вид преобразования содержания документов и информационных запросов в целях их подготовки для механизации информационного поиска. Индексирование заключается в переводе основного смыслового содержания документа или запроса с естественного языка… … Контрразведывательный словарь

    Выражение главного содержания текста какого либо документа в терминах языка информационно поисковой системы. Применяется для облегчения поиска нужного документа среди множества других. * * * ИНДЕКСИРОВАНИЕ ИНДЕКСИРОВАНИЕ, выражение главного… … Энциклопедический словарь

    ИНДЕКСИРОВАНИЕ - В международных страховых операциях: автоматическая корректировка величины стоимости, устанавливаемой при страховании имущества или ответственности при реализации международной программы страхования с целью отражения уровня инфляции в стране,… … Страхование и управление риском. Терминологический словарь

    индексирование - indeksavimas statusas T sritis radioelektronika atitikmenys: angl. indexing vok. Indexieren, n; Indizierung, f rus. индексирование, n pranc. indexage, m … Radioelektronikos terminų žodynas

    индексирование - Rus: индексирование Deu: Indexieren Eng: indexing Fra: indexation Выражение содержания документа и или смысла информационного запроса на информационно поисковом языке. ГОСТ 7.74 … Словарь по информации, библиотечному и издательскому делу

    Процесс выражения главного предмета или темы текста какого либо документа в терминах информационно поискового языка (См. Информационно поисковый язык). Применяется для облегчения поиска необходимого текста среди множества других.… … Большая советская энциклопедия

Информационные системы. Автоматизированные информационные системы.

1. Информационные системы.

2. Информационно-поисковый язык. Система индексирования. Цель процесса индексирования.

3. Документальные информационные системы. Показатели эффективности документальной ИС.

4. Фактографическая система. Что такое предметная область? Модели данных.

5. Построение ER-модели предметной области.

6. Теория нормализации отношений.

7. Уникальный идентификатор сущности.

8. Классификация и структура АИС

9. Понятие жизненного цикла АИС. Фазы и процессы, модели жизненного цикла АИС.

10. Технология проектирования АИС.

11. Структурный подход к проектированию АИС.

12. Использование CASE – средств при проектировании АИС.

13. SCADA – системы: этапы создания, области применения, функциональные возможности.

Информационные системы.

Информационная система (ИС) - это система, предназначенная для ведения информационной модели, чаще всего - какой-либо области человеческой деятельности. Эта система должна обеспечивать средства для протекания информационных процессов :

хранение

передача

преобразование информации.

Информационной системой называют совокупность взаимосвязанных средств, которые осуществляют хранение и обработку информации, также называют информационно-вычислительными системами. В информационную систему данные поступают от источника информации. Эти данные отправляются на хранение либо претерпевают в системе некоторую обработку и затем передаются потребителю.

Между потребителем и собственно информационной системой может быть установлена обратная связь. В этом случае информационная система называется замкнутой . Канал обратной связи необходим, когда нужно учесть реакцию потребителя на полученную информацию.

Информационная система состоит из источника информации , аппаратной части ИС , программной части ИС , потребителя информации .

Различают 3 класса информационных систем по степени их автоматизации:

Ручные информационные системы - характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. Например, о деятельности менеджера в фирме, где отсутствуют компьютеры, можно говорить, что он работает с ручной ИС.

Автоматизированные информационные системы (АИС) - наиболее популярный класс ИС. Предполагают участие в процессе обработки информации и человека, и технических средств, причем главная роль отводится компьютеру.

Автоматические информационные системы - выполняют все операции по переработке информации без участия человека, различные роботы. Примером автоматических информационных систем являются некоторые поисковые машины Интернет, например Google, где сбор информации о сайтах осуществляется автоматически поисковым роботом и человеческий фактор не влияет на ранжирование результатов поиска.

Информационно-поисковый язык. Система индексирования. Цель процесса индексирования.

Информационно-поисковый язык, знаковая система, предназначенная для описания (путём индексирования ) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска . Любой абстрактный И.-п. я. состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации - как надлежит понимать эти слова и выражения.

И.-п. я. должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного И.-п. я. учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система .

В большинстве И.-п. я. основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного И.-п. я. Правила образования в таких И.-п. я. выполняют функцию синтаксиса. В некоторых И.-п. я. основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких И.-п. я. правила образования устанавливают, как из данного алфавита строить слова И.-п. я., а из этих слов - выражения (фразы) и какие из них будут правильно построенными. И.-п. я. отличается от информационного языка и от машинного языка . В середине 20 в. в качестве И.-п. я. широко применяются классификации библиотечно-библиографические и языки дескрипторного типа.

Система индексирования представляет собой большое скопление информации (базу данных), приносимых в нее роботом-посетителем. Эта информация определенным образом структурируется и индексируется, чтобы впоследствии было легче выделить список сайтов по конкретным ключевым словам.

Процесс индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности:

анализ и определение содержания документа, как объекта индексирования;

выбор понятий, характеризующих содержание документа;

выбор терминов индексирования для обозначения понятий;

формирование поискового образа документа из терминов индексирования.

Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов.

1. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ).

2. В процессе индексирования не рекомендуется описывать документ как физический объект (c точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-02



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: