Виды индексирования. Яндекс — информация о компании — Индексирование интернета. Выбор терминов индексирования

Итак, друзья, сегодня я продолжаю серию статей о поисковых системах. Эта — четвертая, в которой я изложу взгляд на поисковые системы изнутри, на технологию работы поисковых машин. Для чего? Как говорил один из моих комментаторов по поводу изучения их работы, — «врага надо знать в лицо»:). Что же, давайте изучим этого «врага» более детально и тщательно.

Для тех, кто не прочел предыдущие три статьи, вот ссылки: , .

А теперь читаем статью

Современные поисковые машины обрабатывают десятки тысяч обращений в
секунду. Как это это происходит?

Поисковые системы на физическом уровне

Современная поисковая машина - это сложнейшая структура, состоящая из сотен тысяч, а в Google - миллионов физических серверов. Вся , которая на них хранится, распределена и надежно защищена по дата-центрам всего мира.

Серверное помещение Яндекса

При своем зарождении, в «далеком» 1997 году обработкой запросов для пользователей Яндекса и выдачей результатов поиска занимался всего один сервер, который располагался в кабинете одного из основателей компании и который был слабее любого современного домашнего компьютера! Представляете, как все быстро менялось, если уже к 2000 году у Яндекса было около 50 серверов. Каждый месяц число серверов увеличивалось и, со временем, это привело к появлению собственного дата-центра (сейчас у Яндекса их уже четыре). Современный дата-центр - это сотни серверов, объединенных в единую сеть, которые позволяют справляться с большим объемом запросов и высокой посещаемостью сервиса. Вот характерный пример: посещаемость только поиска Яндекса за февраль 2012 года составила 28,3 миллиона человек.

Логическая схема работы поисковых систем

Когда пользователь хочет что-то найти в интернете, он вводит запрос. Этот запрос обрабатывается «балансировщиком нагрузки» - специализированным устройством, которое автоматически перенаправляет запрос пользователя в наименее загруженный на данный момент кластер . Это позволяет максимально эффективно использовать имеющиеся вычислительные мощности.

Затем поисковый запрос перенаправляется в «метапоиск» . Эта система получает все необходимые данные и узнает, к какому типу данных этот запрос относится. На этом же этапе запрос проверяется на орфографию, здесь же определяется, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты.

Логическая схема обработки запроса Яндекса

Далее метапоиск проверяет, не было ли похожего запроса к системе в последнее время. Это связано с тем, что некоторые запросы становятся весьма популярными в определенные моменты происходящие в мире и Сети (значимое событие, катастрофа или даже рекламная кампания нового продукта),некоторые популярны постоянно (например, связанные с событиями в социальных сетях). Чтобы снизить нагрузку, поисковая система некоторое время хранит ответы на запросы пользователей в кэше и в случае повторных обращений, показывает уже готовые результаты, вместо того чтобы формировать ответы заново. Если при проверке не получилось найти уже готовый ответ в кэше, поисковая система начинает формирование нового ответа и запрос пользователя передается дальше, на серверы «базового поиска». Именно в базовом поиске находится индекс поисковой системы , разбитый на отдельные части и распределенный по серверам, поскольку поиск по частям всегда быстрее. Стоит обратить внимание, что каждый сервер имеет несколько копий. Это позволяет не только защитить информацию от потери, но и распределить нагрузку. Если информация с конкретного сервера окажется слишком востребованной и один из серверов будет перегружен, проблема решится подключением копий этого сервера. По результатам поиска каждый сервер базового поиска возвращает метапоиску результаты, связанные с запросом пользователя. Далее к работе подключается алгоритм ранжирования «Матрикснет» , который и определяет, на каком месте в поисковой выдаче будет каждая конкретная ссылка.

А теперь перейдем к наиболее животрепещущему вопросу для каждого обладателя сайта и выясним. как же происходит

Процесс индексирования

Индексация - это такой процесс, во время которого поисковые роботы «совершают поход» по сайтам и собирают с их страниц разнообразную информацию и заносят ее в специальные базы данных. Вот завести с ними личное знакомство! 🙂 Потом эти данные каким-то образом обрабатываются, и по ним строится индекс - выжимка из документов(веб страниц). Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.
Рассмотрим процесс индексирования на примере Яндекса. В поисковой системе есть 2 типа роботов: быстрый (быстро-робот) и основной.
Задача основного робота - индексация всего контента, а быстрого - занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

Последовательность процессов индексирования Яндекса.

Документы в индекс попадают двумя способами:

1) Автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам,

2) Либо владелец сайта может сам добавить URL через специальную форму(«аддурилка») или через установленную на сайте Яндекс.Метрику. Этот передает url страниц на индексацию Яндексу. При желании можно не устанавливать код Метрики на сайт или отключить данную опцию ее в интерфейсе.

Честно говоря, я не могу сказать, способствует ли Метрика Яндекса более быстрому индексированию страниц сайтов и мнения вебмастеров по поводу ее работы диаметрально противоположны: от хвалебных од, до бескомпромиссной критики. Некоторые считают ее действие положительно сказывается на скорости индексаци, некоторые — что она тормозит этот процесс. Комментаторы, делитесь личным опытом и наблюдениями!

А теперь мы плавно перешли к понятию

Скорость индексации и обновления страниц

В идеале, вновь созданная страница должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют скорость индексации новых страниц и обновления старых. Роботы поисковых систем постоянно обновляют поисковую базу данных, но чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам и другие ненужные, по мнению поисковой машины, документы. Однако для некоторых типов информации такая скорость обновление неприемлема. Например процесс индексирования новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для ускорения индексации часто обновляемых страниц и существует специальный «быстрый робот» , который посещает новостные сайты несколько раз в день.

Не думайте, что поисковые роботы лентяи — они стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладывают ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap, отсутствия ошибок, мешающих нормальной индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, метатеги, теги, атрибуты noindex и nofollow.
Robots.txt - это текстовый файл, в котором можно задавать параметры индексирования как для всех поисковых роботов сразу, так и по отдельности.
Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow - за индексацию ссылок. Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах. Существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в
определенных блоках и т.д.

Типы роботов поисковых систем

Среди всех существующих поисковых роботов стоит выделить четыре основных:
➜➜ индексирующий робот,
➜➜ робот по изображениям,
➜➜ робот по зеркалам сайта;
➜➜ робот, проверяющий работоспособность сайта или страницы.
Некоторые посторонние роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить подлинность
робота с помощью идентификации, основанной на обратных DNS-запросах.

Определить, какой робот к тебе
зашел, можно с помощью лог-
файла, который обычно доступен
либо в админке, либо на ftp. Все
существующие роботы представ-
ляются по одной схеме, но каж-
дый имеет свое название. На-
пример: «Mozilla/5.0 (compatible;
YandexBot/3.0; +http://yandex.
com/bots)» - основной индекси-
рующий робот Яндекса.

Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска. Робот по изображениям заносит в индекс графическую информацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например, Яндекс.Картинки или Картинки Google. Робот, определяющий зеркала, проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковика будет только один сайт - главное зеркало.

Существуют так же другие твиды индексирующих роботов: индексаторы видео; пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках новостных сайтов и др.
Важно понимать, что процесс индексации является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений может оказаться видимым только через 1-2 недели. Существует еще специальный робот, который проверяет доступность сайта, добавленного через форму «Добавить URL» в Яндекс.Вебмастер.

Что бы не утомлять вас более очень длинной статьей, просто скажу, что

Продолжение следует…

(Visited 10 times, 1 visits today)

Кристина Загорулько

Дек 21, 2015 | Время чтения: 6 мин

Задача любого сайта - донести до как можно большего количества людей информацию, которую он содержит. Продвижение сайта в поисковых системах (ПС) - наиболее эффективный способ это сделать. Один из этапов продвижения - индексация сайта, т. е. считывание всех данных с сайта, последующая их обработка алгоритмами поисковых систем и занесение результатов в базу данных.

Не зная кухни этого процесса, эффективно продвигать сайт невозможно. В этой статье мы расскажем, что происходит с информацией, собранной с ресурса в недрах ПС и как ее упаковать для лучшего усвоения. То есть расскажем о процессе индексирования и его улучшении.

Индексация сайта - что находится в начале

Если театр начинается с вешалки, то индексирование с того, что роботу поисковой системы необходимо сообщить, что в интернете появился новый ресурс. Сделать это можно двумя способами:

  1. Зарегистрировать сайт в поисковой системе вручную Яндексу (webmaster.yandex.ru/addurl.xml), Google (www.google.com/webmasters/tools/submit-url?hl=ru) и других поисковых системах, если они вас интересуют.
  1. Дать ссылку на сайт со стороннего интернет-ресурса (разумеется, тот уже должен быть зарегистрирован).

Первый способ предпочтительнее, так как в этом случае первая индексация с большой вероятностью произойдет раньше.

Отчего зависит частота индексирования и как ее ускорить

Сейчас в базе данных Яндекса больше триллиона (!) веб-адресов (каждая страница любого сайта имеет свой адрес). Разумеется, проиндексировать всю эту махину за один день - задача нереальная. Поэтому следует понимать, что индексация сайта происходит не каждый день, а с определенной периодичностью. Причем эта периодичность - величина непостоянная и зависящая от ряда факторов. И на практике получается, что одни ресурсы ПС индексируют чуть ли не ежедневно, а для других - поисковый робот редкий гость. Поэтому очень желательно, предпринять ряд действий, чтобы интервал между индексациями уменьшить. Тогда вы эффективнее будете продвигать свой сайт, так как быстрее сможете видеть результаты своих действий на нем и, соответственно, быстрее вносить коррективы.

Что влияет на эту оперативность?

  1. Загруженность сервера, где расположен сайт. Если он загружен множеством сайтов, а его технические характеристики не позволяют оперативно передавать информацию поисковому роботу, то последний будет его посещать реже. Отсюда рекомендация - хотите быстрой индексации, разместите свой интернет-ресурс на качественном хостинге.
  2. Частота обновления веб-страниц и всего сайта в целом. Чем чаще происходят обновления, тем чаще робот будет приходить на такой ресурс. Все вполне логично. Смысл часто приходить туда, где ничего не происходит? Только следует знать один нюанс. Робот будет приходить именно на те страницы, которые часто и обновляются. То есть, если хотите, чтобы оперативно оценивалась информация на главной странице вашего сайта ее и регулярно обновляйте. Самый простой способ - разместить на ней блок новостей.
  3. Посещаемость сайта и его посетителей. То есть, если посещаемость высокая и люди на ресурсе задерживаются долго, совершают внутренние переходы, то интервал между индексациями, безусловно, уменьшится.

Как видите, на все эти три фактора можно влиять в благоприятную для владельца сайта сторону.

Как узнать, что страница в индексе

Это далеко не праздный вопрос и не из серии: «Лучше любая информация, чем неизвестность». Ведь если точно знать, что индексация прошла, а позиции вашего сайта в выдаче не изменились, значить что-то вы делаете не так.

Проверить индексацию сайта можно несколькими способами:

  1. На сервисе Яндекс.Вебмастер («Проверить URL»). Здесь можно узнать:
    • когда произошла последняя индексация;
    • какой документ показывается посетителю в результате поиска;
    • рекомендации по ускорению индексации;
    • если страница отсутствует в поиске, то по каким причинам.
  2. Провести поиск при помощи следующего выражения: url:интересующий url, например, url: moi sairu/contacts
  3. Поиск при помощи оператора site:. Например, записав в поисковую строку site: moi site.ru вы получите список всех страниц вашего сайта, которые были проиндексированы.
  4. Проверить индексацию списка URL в .

Сервис SE Ranking предлагает также инструмент отслеживания выдачи заданного URL в поиске. Так что вы всегда будете знать, не выпала ли интересующая страница из индекса, а также выдается ли нужная страница по конкретному поисковому запросу.

Как управлять поисковым роботом

Поисковая система скачивает информацию с сайта по строго определенному плану. Тут нет места импровизации. А где она берет этот план? Да на самом интернет-ресурсе! То есть вы можете указать ПС, что и как скачивать или не скачивать.

Файл robots.txt

Очень важный файл, в котором можно указать, какие страницы нельзя индексировать. Это очень важно, так как ни в коем случае нельзя позволять ПС считывать личную информацию пользователей: номера телефонов, паспортные данные, если таковые имеются и т. д. В противном случае владельцу сайта могут грозить крупные неприятности. Также, если у вас социальная сеть, особенно посвященная знакомствам, необходимо запретить индексацию страниц, где могут содержаться личные данные пользователей. Например, строка Disallow:/admin запретит роботу просматривать страницы, урл которых начинается со слова admin, а Disallow:/images запретит индексировать картинки.

Обязательно в robots.txt укажите адрес карты сайта sitemap. В этом случае вы будете уверены, что робот увидит все страницы вашего сайта, индексация которых не запрещена.

Типичные ошибки в файле robots.txt

  1. Ошибочный запрет к индексации некоторых страниц сайта.
  2. Код HTTP-ответа отличный от 200. Например, если при запросе страницы с файлом robots.txt поисковый робот получит HTTP-ответ, равный 403 («запрещено»), то он полностью проигнорирует содержимое файла robots.txt, в том числе на запрет индексации определенных страниц.
  3. Наличие кириллических символов в файле. Особенно часто такая ошибка стала появляться, когда появилась возможность записывать урл кириллическими буквами. Например, если в директиве Host (указывает на главное зеркало сайта) написать лютикицветочки.рф, то такая запись будет проигнорирована. В таких случаях необходимо такие урл передавать в юникоде.
  4. Размер файла txt превышает 32 кб.

В завершении по robots.txt заметим, что не обязательно сайт должен его иметь. Для простых одно-двухстраничных интернет ресурсов, например, такой файл будет лишним. Если же у вас он есть, то корректность его содержимого можно проверить на странице Яндекс.Вебмастер - webmaster.yandex.ru/robots.xml. Загружаете файл в специальную форму и видите, какие ошибки в нем есть.

Файл sitemap

В этом файле указывается, какие страницы подлежат индексации. Конечно, указать на них поисковому роботу можно и другими способами. Например, навигацией меню, « », внутренней перелинковкой.

Но, во-первых, если у вас есть лендинг пейдж, на которую можно попасть только по внешней ссылке, то проиндексировать ее можно только с помощью sitemap.

Во-вторых, в sitemap при помощи:

  • тега Можно указать приоритет индексации;
  • тега частоту обновления конкретной страницы.

Эта информация не директивная для робота, но обязательно будет принята им во внимание.

Типичные ошибки в файле sitemap

  1. Размещение sitemap на другом сайте. Часто это бывает, когда используется сервис для генерации такой файла. В этом случае сервис размещает карту вашего сайта у себя.
  2. На странице, где находится карта сайта, установлен редирект.
  3. Критические ошибки внутри файла sitemap. Например, отсутствует строка с указанием кодировки.

Проверить правильность файла sitemap на странице Яндекс.Вебмастер — webmaster.yandex.ru/ sitemaptest.xml.

Во второй части статьи: « Принципы индексирования сайта. Часть 2» мы поговорим о принципах работы с зеркалами, о дублях страниц, об ошибках при использовании HTTP-кодов. И еще раз подчеркнем, что правильная настройка индексации сайта может существенно помочь его продвижению.

Просмотры: 670

ГОСТ 7.66-92
(ИСО 5963-85)

Группа Т62

ГОСУДАРСТВЕННЫЙ СТАНДАРТ СОЮЗА ССР

Система стандартов по информации, библиотечному и издательскому делу

ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ

Общие требования к координатному индексированию

System of standards on information,
librarianship and publishing. Indexing of documents.
General requirements for coordinate indexing


ОКСТУ 0007

Дата введения 1993-01-01

ИНФОРМАЦИОННЫЕ ДАННЫЕ

1. РАЗРАБОТАН И ВНЕСЕН Государственным комитетом СССР по науке и технологиям и Техническим комитетом ТК 191 "Научно техническая информация, библиотечное и издательское дело"

РАЗРАБОТЧИКИ

В.Н.Белоозеров, канд. филол. наук (руководитель темы); Н.Д.Кравченко, канд. пед. наук; И.В.Тростникова; Н.А.Сливницина; Г.Н.Хондкариан; В.Н.Казаков, канд. техн. наук

2. УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Комитета стандартизации и метрологии СССР от 27.03.92 N 297


Настоящий стандарт разработан методом прямого применения стандарта ИСО 5963-85 "Документация. Методы анализа документов, определения их тематики и выбора терминов индексирования" с дополнительными требованиями, отражающими потребности народного хозяйства

3. Срок первой проверки - 1995 г.

Периодичность проверки - 5 лет

4. РАЗРАБОТАН ВПЕРВЫЕ

5. ССЫЛОЧНЫЕ НОРМАТИВНО-ТЕХНИЧЕСКИЕ ДОКУМЕНТЫ

Номер пункта, приложения

ГОСТ 7.0-84

Вводная часть

ГОСТ 7.25-80

ГОСТ 7.26-80

Вводная часть

ГОСТ 7.27-80

Вводная часть; приложение 1

ГОСТ 7.52-85

Вводная часть; 5.7

ГОСТ 7.59-90

Вводная часть; приложение 1


Настоящий стандарт устанавливает общие требования к координатному индексированию документов, включая правила формирования поискового образа документа. Специфические требования к систематизации и предметизации документов - по ГОСТ 7.59 . Форма представления поискового образа документа в коммуникативном формате МЕКОФ - по ГОСТ 7.52 .

Стандарт распространяется на информационно-поисковые системы, в которых содержание документов представлено в сжатой форме лексическими единицами информационно-поискового языка. Стандарт не распространяется на формирование фактографических записей в фактографических базах данных.

Термины и определения - по ГОСТ 7.0 , 7.26, 7.27, 7.59 и приложению 1.

Дополнительные требования, отражающие потребности народного хозяйства, приведены в приложении 1.

1. ОБЩИЕ ПОЛОЖЕНИЯ

1. ОБЩИЕ ПОЛОЖЕНИЯ

1.1. Процесс индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности:

анализ и определение содержания документа как объекта индексирования;

выбор понятий, характеризующих содержание документа;

выбор терминов индексирования для обозначения понятий;

формирование поискового образа документа из терминов индексирования.

Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов.

1.2. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ).

1.3. В процессе индексирования не рекомендуется описывать документ как физический объект (с точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.

2. АНАЛИЗ ДОКУМЕНТА

2.1. При анализе документа индексатору должна быть предоставлена возможность ознакомиться с документом в полном объеме. При невозможности исчерпывающего ознакомления с документом индексатор должен изучить имеющиеся текстовые части документа (основные источники индексирования):

справочный аппарат документа - заглавие (наименование), аннотацию, реферат, содержание (оглавление), предисловие, заключение и др.;

введение;

заголовки частей и глав;

первые фразы глав и параграфов;

иллюстрации, схемы, таблицы и подписи к ним;

слова и группы слов, которые в тексте подчеркнуты или выделены полиграфическими средствами.

Индексирование только по заглавиям является неполноценным. При индексировании по рефератам и аннотациям следует следить за адекватностью передачи в них содержания документа.

2.2. При анализе нетекстовых (аудиовизуальных и других) документов, которые помимо чтения требуют просмотра, прослушивания, испытания объекта в действии и других подобных процедур, допускается индексирование их по имеющемуся текстовому компоненту (наименованию, краткому описанию и т. п.), но и в этом случае индексатору должна быть предоставлена возможность полного ознакомления с документом, если текстовый материал представляется недостаточным.

3. ВЫБОР ПОНЯТИЙ, ХАРАКТЕРИЗУЮЩИХ СОДЕРЖАНИЕ ДОКУМЕНТА

3.1. Число характеристик и понятий, отраженных в ПОД, определяет его полноту и является важнейшим показателем качества индексирования.

3.1.1. В ПОД необходимо отразить все понятия, которые могут иметь ценность для пользователей системы.

В документе может быть выявлено более одной темы из сферы интересов пользователей. Эти темы должны рассматриваться раздельно.

3.1.2. Тематика, отражаемая при индексировании, не должна ограничиваться узкими рамками непосредственных интересов пользователей ИПС. Следует включать в ПОД также понятия, связанные с побочными аспектами документа (например, социальные и экономические аспекты научно-технических исследований).

3.1.3. При выборе понятий основным критерием является потенциальная ценность понятия для выражения содержания документа или для его поиска. При этом необходимо ориентироваться на типичные запросы к ИПС:

отбирать понятия, наиболее употребительные в коллективе пользователей ИПС;

уточнять состав лексики и грамматические правила ИПЯ на основе обратной связи с пользователями.

Изменения, вносимые в ИПЯ, не должны нарушать общую структуру и логику, заложенные при его создании.

3.1.4. Число терминов индексирования, приписываемых одному документу, определяется количеством сведений, содержащихся в документе. Ограничение числа терминов должно быть основано на содержательном отборе наиболее важных понятий.

3.2. Полнота индексирования, принятая в каждой ИПС, определяется ее функциональным назначением. Объем документа также сильно влияет на полноту индексирования. Необходимо учитывать указанные факторы и на их основе производить экспертный отбор понятий из документа, не стремясь включить в ПОД все упомянутые в нем понятия.

3.3. Специфичность ПОД определяется тем, в какой мере понятия документа нашли точное отражение терминами индексирования, и также является одним из параметров качества индексирования. Замена понятия термином, отражающим более широкое понятие, приводит к потере специфичности. Более широкие термины допускается использовать в особых случаях:

если излишне специфичный термин непонятен пользователям, особенно когда соответствующее понятие применяется только в пограничных областях деятельности;

если в документе понятие раскрыто недостаточно полно или является вспомогательным для изложения содержания документа.

3.4. Рекомендуется в каждой ИПС разрабатывать списки характеристик, которые признаются важными для отражения в ПОД. Для всех систем может быть рекомендован список указателей роли по ГОСТ 7.52 . В зависимости от потребности конкретной ИПС этот список может быть как расширен, так и сокращен.

4. ВЫБОР ТЕРМИНОВ ИНДЕКСИРОВАНИЯ

4.1. В процессе выбора терминов индексирования понятия, характеризующие содержание документа, представляют:

предпочтительными лексическими единицами (дескрипторами или ключевыми словами), выбранными по правилам конкретного ИПЯ;

терминами, отражающими новые понятия, проверив их точность и приемлемость по словарям, энциклопедиям, справочникам, классификационным таблицам, информационно-поисковым тезаурусам, терминологическим стандартам и другим источникам, признанным авторитетными в данной области.

4.2. Выбор терминов индексирования осуществляют на основе зарегистрированного (ГОСТ 7.25) или опубликованного информационно-поискового тезауруса, который используют при составлении запросов к ИПС.

При использовании тезауруса допускается сокращать число терминов, включаемых в ПОД за счет исключения общих понятий, которые могут быть привлечены на этапе поиска документа или на этапе составления поискового предписания на основании ссылок в статьях тезауруса.

4.3. Понятия, не представленные в словаре индексирования, но необходимые для формирования ПОД, выражают одним из двух способов:

новым специфическим термином, который включают в ПОД и в словарь;

более общим термином, имеющимся в ИПЯ; при этом специфический термин направляют в службу ведения ИПЯ в качестве кандидата на включение в словарь.

Новые понятия представляют наиболее близкими из существующих в ИПЯ лексических единиц, а также оценивают полезность включения новых терминов в словарь с точки зрения поиска.

4.4. При индексировании свободными ключевыми словами, взятыми из текста документа, они должны быть приведены к канонической форме по ГОСТ 7.25 . Длину словосочетаний рекомендуется ограничивать двумя-тремя словоформами.

Схема индексирования с использованием информационно-поискового тезауруса приведена в приложении 2.

5. ФОРМИРОВАНИЕ ПОИСКОВОГО ОБРАЗА ДОКУМЕНТА

5.1. ПОД состоит из выбранных терминов индексирования, организованных с помощью грамматических средств ИПЯ данной ИПС.

5.2. В состав ПОД могут быть включены следующие категории данных, предусмотренные технологией индексирования конкретной ИПС:

степень нормализации терминов индексирования и применяемый для этого словарь;

индивидуальные характеристики термина индексирования;

связь терминов индексирования в синтаксических конструкциях ПОД.

Для включения в ПОД фактографических данных применяют грамматические категории, указанные в разд. 6.

5.3. По степени нормализации различают два типа терминов координатного индексирования: дескрипторы и ключевые слова.

5.4. Термины индексирования должны быть представлены в ПОД в соответствии с орфографическими правилами используемого в системе естественного языка.

5.4.1. Дескрипторы допускается представлять условными кодами, которые указаны в используемом словаре индексирования. В этом случае ИПС должна обеспечивать автоматический поиск орфографических форм дескрипторов по их кодам.

5.4.2. Ключевые слова в многоязычных информационных системах, с ПОД на основе различных национальных языков, должны быть снабжены пометами о принадлежности к тому или иному естественному языку.

5.5. Индивидуальные характеристики терминов индексирования являются факультативными элементами ПОД и их используют для уточнения содержания документа, организации процедур информационного поиска или дальнейшей аналитико-синтетической обработки документов в системе.

К индивидуальным характеристикам относят данные о семантической и морфологической категории термина индексирования, его роли и информационном весе, способе получения и предполагаемом использовании.

5.5.1. Семантическая характеристика термина индексирования заключается в отнесении его к следующим лексикографическим категориям:

1) термин, выражающий научно-техническое понятие;

2) имя собственное, идентификатор;

3) наименование параметра;

4) значение параметра (выраженное текстом или именованной величиной);

5) числовое выражение;

6) обозначение единицы величины.

5.5.2. Морфологическая характеристика термина индексирования заключается в отнесении его к лексикографическим категориям:

1) производное слово;

2) сложное слово;

3) словосочетание;

4) аббревиатура;

5) фрагмент слова.

Морфологические характеристики используют в ПОД для реализации в ИПС смыслового анализа лексических единиц на основе их формальных признаков.

5.5.3. Роль термина индексирования указывают в ПОД для уточнения места соответствующего понятия в содержании документа. Для этого особыми указателями роли, принятыми в ИПС, отмечают термины индексирования, отражающие следующие аспекты документа:

1) объект исследования, описания;

2) характеристики, свойства, параметры объекта;

3) методы и средства исследования, технологическую оснастку;

4) составные части, узлы, детали объекта;

5) область применения объекта (отрасль хозяйства, техники, науки);

6) назначение объекта;

7) цель исследования, разработки, описания;

8) результаты исследования, разработки.

5.5.4. Информационный вес термина индексирования отражает в ПОД важность данного понятия для данного документа. Число градаций информационного веса определяется потребностями конкретной ИПС. Следует различать:

1) понятия, выражающие главную тему документа;

2) понятия, выражающие побочные темы документа;

3) понятия, использованные в документе как вспомогательные для изложения его содержания.

Допускается использовать указатель отрицательного веса, которым помечают термины индексирования для указания на то, что данное понятие не рассматривается в документе.

5.5.5. Пометы, необходимые для указания на способ получения термина индексирования, используют для организации технологического процесса индексирования. Следует различать следующие пометы:

1) термин назначен по усмотрению индексатора, но отсутствует в документе;

2) термин введен в ПОД на основании связей, указанных в тезаурусе, но отсутствует в документе;

3) термин получен при автоматическом индексировании.

5.5.6. Пометы о предполагаемом использовании термина индексирования вводят в ПОД с целью выделить лексические единицы, подлежащие специальной обработке в процессах дальнейшей аналитико-синтетической переработки информации. Следует различать следующие пометы:

1) термин используется как предметная рубрика указателей:

2) при данном термине индексирования имеются фактографические данные, указанные в ПОД;

3) термин используется только как уточняющий определитель к другим терминам.

5.6. Термины индексирования в ПОД могут быть снабжены указателями связи, объединяющими их в синтаксические конструкции, которые отражают:

1) порядок следования и взаимное расположение терминов индексирования в документе;

2) смысловые связи понятий в документе;

3) парадигматические связи дескрипторов в тезаурусе.

Синтаксические конструкции рассматривают как цельные единицы ПОД наряду с терминами индексирования. Они могут быть объединены с другими синтаксическими конструкциями или с отдельными терминами индексирования в конструкции более высокого порядка.

Число уровней иерархии синтаксических конструкций определяется потребностями конкретных ИПС. Не следует применять конструкции четвертого и более высоких порядков.

Синтаксические конструкции могут быть охарактеризованы указателями веса, роли и предполагаемого использования аналогично индивидуальным терминам индексирования (см. пп.5.5.3, 5.5.4, 5.5.6).

5.7. Запись ПОД в памяти ИПС обусловлена принятым в ней способом кодирования с учетом требований настоящего раздела и ГОСТ 7.52 .

6. ФАКТОГРАФИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТА

6.1. Фактографическое индексирование документа (ФИД) заключается в выявлении в документе и включении в ПОД данных, выражающих конкретные сведения (сообщения), имеющиеся в документе.

На основании результатов ФИД в фактографических ИПС формируются массивы сведений, в которых единицей информации является фактографическая запись.

6.2. ФИД предполагает формальное различение в ПОД двух категорий терминов индексирования, выражающих:

1) темы или объекты сообщения;

2) приписанные этим объектам свойства, являющиеся смыслом сообщения.

Соответствующие термины индексирования должны быть связаны друг с другом в синтаксическую конструкцию, объединяющую наименование объекта, его характеристики, их значения, единицы величины и отражающую смысловые связи понятий в документе.

Дополнительно такая синтаксическая конструкция может быть охарактеризована:

1) показателем модальности;

2) условием истинности.

6.3. Показатель модальности фактографического сообщения определяет различие между сообщениями следующих типов:

1) наблюдаемый факт;

2) допускаемое значение;

3) требование стандарта;

4) плановый показатель;

7) предположение;

8) условие.

Если в информационной системе не используют показатели модальности, то все фактографические сообщения рассматривают как принадлежащие одной модальности, которая должна быть указана в эксплуатационной документации системы.

6.4. Условием истинности фактографического сообщения является другое фактографическое сообщение, связанное с первым в синтаксическую конструкцию вышестоящего уровня.

Например:

Х = вес продукта

Z = 150 г.

V = влажность не более 45%,

где Х - характеристика объекта,

Z - значение характеристики,

Y - условие истинности.

Фактографическое сообщение, являющееся условием истинности, должно иметь показатель модальности условия "если", например:

(вес продукта = 150 г) (если (влажность не более 45%)).

6.5. Термины индексирования, выражающие тему (объект) сообщения, относятся к категориям 1 или 2, указанным в п.5.5.1. При использовании категории 1 термину индексирования может быть дополнительно приписан показатель единичности или общности объекта (квантор).

Квантор общности используют в сообщениях, где выражено утверждение обо всех объектах, попадающих в объем соответствующего понятия.

Квантор единичности используют в сообщениях, где выражена информация о том объекте, входящем в состав данного понятия, который рассматривается в данном документе.

6.6. Термины индексирования, выражающие свойства объектов, которые составляют смысл сообщения, могут быть выражены лексическими единицами категорий 1, 2, 3 (см. п.5.5.1) или параметрической конструкцией (см. п.5.6).

6.7. Параметрическая конструкция должна состоять из двух формально выраженных частей: наименования параметра и перечня значений параметра (см. п.6.8), которые объединены в одну синтаксическую конструкцию.

6.8. Перечень значений в параметрической конструкции должен включать набор значений параметров и указание об альтернативности или одновременности (симультанности) значений.

Набор значений задают перечислением или указанием двух предельных значений, между которыми располагаются значения, принимаемые параметром (интервалом значений). При задании интервала значений формально указывают, которое из значений является начальным и конечным для интервала значений, а также входят ли граничные значения в указанный интервал. Одно из граничных значений интервала может отсутствовать, если значение параметра ограничено только с одной стороны.

Указание об одновременности используют, когда у одного объекта сообщения наблюдаются все заданные значения параметра. Указание об альтернативности используют, когда параметры одного объекта сообщения должны быть выбраны из числа заданных.

6.9. Значения параметра могут быть представлены синтаксической конструкцией из двух терминов индексирования - числового выражения и наименования единицы величины - при необходимости производить операции расчета или численного сравнения.

7. АВТОМАТИЗИРОВАННОЕ ИНДЕКСИРОВАНИЕ

7.1. Целью автоматизации индексирования является минимизация материальных и человеческих ресурсов, затрачиваемых на процедуру индексирования, а также достижение стабильности и единообразия ее результатов.

7.2. Автоматизированное индексирование (АИ) осуществляют по:

1) тексту первичного документа.

2) заглавию и аннотации или реферату документа;

АИ по тексту первичного документа должно включать процедуру сжатия ПОД.

7.3. С использованием вычислительной техники осуществляют следующие содержательные этапы АИ:

1) выявление информативных частей документа;

2) идентификация слов текста и приведение их к нормализованному виду (морфологический анализ и синтез);

3) формирование списка ключевых слов исходного текста;

4) подбор дескрипторов по тезаурусу;

5) формирование ПОД.

7.4. Выявление информативных частей документа

Технология АИ должна предусматривать идентификацию и предоставление индексатору или программе индексирования наиболее информативных фрагментов документа из списка указанных в п.2.1. Могут быть предусмотрены алгоритмы выявления информативных фрагментов по другим формальным критериям, а также по решению специалиста-индексатора.

7.5. Идентификация слов текста

7.5.1. Процесс идентификации слов текста должен включать: отождествление словоформ одного слова и определение информативных слов текста.

При этом может быть необходимо использование интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических конструкций, выявление и разрешение омонимии.

7.5.2. Для идентификации слов текста используют машинные словари (словари основ, парадигм, словосочетаний и т.д.). Словари должны быть представлены в базе данных системы и обеспечены средствами визуализации и ведения.

7.6. Формирование списка ключевых слов текста

7.6.1. В процессе формирования списка ключевых слов текста проводится синтаксический анализ текста с учетом правил сочетаемости грамматических категорий данного естественного языка.

7.6.2. Синтаксический анализ текста решает задачи:

1) разделение текста на фрагменты по заданным критериям;

2) установление синтаксических зависимостей между словоформами текста;

3) отождествление словосочетаний;

4) нормализация выявленных ключевых слов.

7.7. Автоматическое формирование ПОД

7.7.1. В процедуре АИ допускается формирование ПОД из свободных ключевых слов или дескрипторов информационно-поискового тезауруса, используемого в данной области.

7.7.2. При АИ дескрипторами информационно-поискового тезауруса на этапе формирования ПОД происходит замена ключевых слов на дескрипторы, указанные в тезаурусе.

7.7.3. При формировании ПОД из дескрипторов возможно обогащение ПОД за счет пополнения вышестоящими терминами информационно-поискового тезауруса.

7.7.4. Процедура АИ должна предусматривать включение в ПОД типовых грамматических средств (см. разд. 5).

7.7.5. К системам АИ предъявляются следующие требования:

1) модульность построения, т.е. такая внутренняя организация лингвистического и программного обеспечения системы, при которой процедуры решения отдельных задач АИ реализуются с помощью самостоятельных блоков или модулей;

2) ориентация на типовые программные и технические средства;

3) соответствие действующей нормативно-методической документации по координатному индексированию.

ПРИЛОЖЕНИЕ 1 (справочное). ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ

ПРИЛОЖЕНИЕ 1

Справочное

1. Автоматизированное индексирование - индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и может включать применение интеллектуальных процедур при принятии основных решений о составе поискового образа.

2. Автоматическое индексирование - составление поискового образа с использованием только формальных процедур обработки текста документа или запроса, осуществляемых средствами вычислительной техники.

3. Информативное слово - слово или словосочетание в тексте документа или запроса, которое несет в нем существенную смысловую нагрузку.

4. Контролируемое индексирование - индексирование, при котором предусмотрена замена информативных слов текста дескрипторами, указанными в определенном информационно-поисковом тезаурусе или другом словаре индексирования.

5. Координатное индексирование - индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования.

6. Лексическая единица (ЛЕ) ИПЯ - последовательность символов, слово, словосочетание, фрагмент слова или условное обозначение, которая рассматривается в данном ИПЯ как элементарная единица, используемая для представления в поисковых образах документов или запросов определенного понятия, объекта или значения параметра.

7. Свободное индексирование - индексирование, технология которого не предусматривает замену информативных слов текста в соответствии с рекомендациями специального словаря индексирования.

8. Специфический термин - информативное слово, в наибольшей степени отражающее содержание документа, использование которого отличает данный документ от других тематически близких документов.

9. Специфичность индексирования - характеристика качества индексирования, определяемая отношением числа специфических терминов и фактографических сведений к числу неспецифических терминов в поисковом образе.

10. Полнота индексирования - степень отражения в поисковом образе содержания документа и (или) запроса, определяемая как отношение числа специфических терминов и фактографических сведений, включенных в поисковый образ, к числу таковых терминов и сведений, имеющихся в тексте документа или запроса.

11. Фактографическое индексирование - индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (сообщений), являющихся смыслом данного документа.

ПРИЛОЖЕНИЕ 2 (справочное). СХЕМА ИНДЕКСИРОВАНИЯ ПО ИНФОРМАЦИОННО-ПОИСКОВОМУ ТЕЗАУРУСУ

ПРИЛОЖЕНИЕ 2
Справочное

1. Изучить документ и составить перечень существенных для его содержания понятий с учетом специфики ИПС.

2. Рассмотреть первое понятие

3. Найти в тезаурусе лексическую единицу, отражающую данное понятие. Если таковой нет, перейти к п.11.

4. Если найденная лексическая единица - аскриптор, заменить ее указанным в ссылке дескриптором (или комбинацией дескрипторов).

6. Проверить, не являются ли указанные в ссылках дескрипторы более специфичными для выражения данного понятия. Если да, то перейти к п.10.

7. Записать найденные лексические единицы в поисковый образ, снабдив их необходимыми грамматическими показателями по правилам данного ИПЯ.

8. Проверить, имеются ли еще не отраженные в поисковом образе понятия из документа и рассмотреть следующее понятие. Перейти к п.3.

9. Если список понятий документа исчерпан, окончить работу.

10. Заменить исходный дескриптор более специфичными согласно указанию ссылки в тезаурусе. Перейти к п.7.

11. Найти в тезаурусе дескрипторы, совместное включение которых в поисковый образ отражает данное понятие. Если таковых нет, перейти к п.12, если есть - перейти к п.5.

12. Установить термин, выражающий понятие и удовлетворяющий требованиям к дескриторам по ГОСТ 7.25 .

13. Направить найденный термин в службу ведения ИПЯ в качестве кандидата на включение в тезаурус. Перейти к выполнению п.7.

14. Конец.

Блок-схема индексирования по информационно поисковому тезаурусу показана на чертеже.

Блок-схема алгоритма индексирования



Текст документа сверен по:
официальное издание
М.: Издательство стандартов, 1992

СИСТЕМА СТАНДАРТОВ ПО ИНФОРМАЦИИ, БИБЛИОТЕЧНОМУ И ИЗДАТЕЛЬСКОМУ ДЕЛУ

ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ

ОБЩИЕ ТРЕБОВАНИЯ К КООРДИНАТНОМУ ИНДЕКСИРОВАНИЮ

ГОСТ 7.66-92
(ИСО 5963-85)

ГОССТАНДАРТ РОССИИ

Москва

ГОСУДАРСТВЕННЫЙ СТАНДАРТ СОЮЗА ССР

Дата введения 01.01.93

Настоящий стандарт устанавливает общие требования к координатному индексированию документов, включая правила формирования поискового образа документа. Специфические требования к систематизации и предметизации документов - по ГОСТ 7.59. Форма представления поискового образа документа в коммуникативном формате МЕКОФ - по ГОСТ 7.52. Стандарт распространяется на информационно-поисковые системы, в которых содержание документов представлено в сжатой форме лексическими единицами информационно-поискового языка. Стандарт не распространяется на формирование фактографических записей в фактографических базах данных. Термины и определения - по ГОСТ 7.0, ГОСТ 7.26, ГОСТ 7.27, ГОСТ 7.59 и прилож ению 1 . Дополнительные требования, отражающие потребности народного хозяйства, приведены в приложе нии 1 .

1. ОБЩИЕ ПОЛОЖЕНИЯ

1.1. Процесс индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности: анализ и определение содержания документа, как объекта индексирования; выбор понятий, характеризующих содержание документа; выбор терминов индексирования для обозначения понятий; формирование поискового образа документа из терминов индексирования. Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов. 1.2. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ). 1.3. В процессе индексирования не рекомендуется описывать документ как физический объект (с точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.

2. АНАЛИЗ ДОКУМЕНТА

2.1. При анализе документа индексатору должна быть предоставлена возможность ознакомиться с документом в полном объеме. При невозможности исчерпывающего ознакомления с документом индексатор должен изучить имеющиеся текстовые части документа (основные источники индексирования): справочный аппарат документа - заглавие (наименование), аннотацию, реферат, содержание (оглавление), предисловие, заключение и др.; введение; заголовки частей и глав; первые фразы глав и параграфов; иллюстрации, схемы, таблицы и подписи к ним; слова и группы слов, которые в тексте подчеркнуты или выделены полиграфическими средствами. Индексирование только по заглавиям является неполноценным. При индексировании по рефератам и аннотациям следует следить за адекватностью передачи в них содержания документа. 2.2. При анализе нетекстовых (аудиовизуальных и других) документов, которые помимо чтения требуют просмотра, прослушивания, испытания объекта в действии и других подобных процедур, допускается индексирование их по имеющемуся текстовому компоненту (наименованию, краткому описанию и т.п.), но и в этом случае индексатору должна быть предоставлена возможность полного ознакомления с документом, если текстовый материал представляется недостаточным.

3. ВЫБОР ПОНЯТИй, ХАРАКТЕРИЗУЮЩИХ СОДЕРЖАНИЕ ДОКУМЕНТА

3.1. Число характеристик и понятий, отраженных в ПОД, определяет его полноту и является важнейшим показателем качества индексирования. 3.1.1. В ПОД необходимо отразить все понятия, которые могут иметь ценность для пользователей системы. В документе может быть выявлено более одной темы из сферы интересов пользователей. Эти темы должны рассматриваться раздельно. 3.1.2. Тематика, отражаемая при индексировании, не должна ограничиваться узкими рамками непосредственных интересов пользователей ИПС. Следует включать в ПОД также понятия, связанные с побочными аспектами документа (например, социальные и экономические аспекты научно-технических исследований). 3.1.3. При выборе понятий основным критерием является потенциальная ценность понятия для выражения содержания документа или для его поиска. При этом необходимо ориентироваться на типичные запросы к ИПС: отбирать понятия, наиболее употребительные в коллективе пользователей ИПС; уточнять состав лексики и грамматические правила ИПЯ па основе обратной связи с пользователями. Изменения, вносимые в ИПЯ, не должны нарушать общую структуру и логику, заложенные при его создании. 3.1.4. Число терминов индексирования, приписываемых одному документу, определяется количеством сведений, содержащихся в документе. Ограничение числа терминов должно быть основано на содержательном отборе наиболее важных понятий. 3.2. Полнота индексирования, принятая в каждой ИПС, определяется ее функциональным назначением. Объем документа также сильно влияет на полноту индексирования. Необходимо учитывать указанные факторы и на их основе производить экспертный отбор понятий из документа, не стремясь включить в ПОД все упомянутые в нем понятия. 3.3. Специфичность ПОД определяется тем, в какой мере понятия документа нашли точное отражение терминами индексирования, и также является одним из параметров качества индексирования. Замена понятия термином, отражающим более широкое понятие, приводит к потере специфичности. Более широкие термины допускается использовать в особых случаях: если излишне специфичный термин непонятен пользователям, особенно когда соответствующее понятие применяется только в пограничных областях деятельности; если в документе понятие раскрыто недостаточно полно или является вспомогательным для изложения содержания документа. 3.4. Рекомендуется в каждой ИПС разрабатывать списки характеристик, которые признаются важными для отражения в ПОД. Для всех систем может быть рекомендован список указателей роли по ГОСТ 7.52. В зависимости от потребности конкретной ИПС этот список может быть как расширен, так и сокращен.

4. ВЫБОР ТЕРМИНОВ ИНДЕКСИРОВАНИЯ

4.1. В процессе выбора терминов индексирования понятия, характеризующие содержание документа, представляют: предпочтительными лексическими единицами (дескрипторами или ключевыми словами), выбранными по правилам конкретного ИПЯ; терминами, отражающими новые понятия, проверив их точность и приемлемость по словарям, энциклопедиям, справочникам, классификационным таблицам, информационно-поисковым тезаурусам, терминологическим стандартам и другим источникам, признанным авторитетными в данной области. 4.2. Выбор терминов индексирования осуществляют на основе зарегистрированного (ГОСТ 7.25) или опубликованного информационно-поискового тезауруса, который используют при составлении запросов к ИПС. При использовании тезауруса допускается сокращать число терминов, включаемых в ПОД за счет исключения общих понятий, которые могут быть привлечены на этапе поиска документа или на этапе составления поискового предписания на основании ссылок в статьях тезауруса. 4.3. Понятия, не представленные в словаре индексирования, но необходимые для формирования ПОД, выражают одним из двух способов: новым специфическим термином, который включают в ПОД и в словарь; более общим термином, имеющимся в ИПЯ; при этом специфический термин направляют в службу ведения ИПЯ в качестве кандидата на включение в словарь. Новые понятия представляют наиболее близкими из существующих в ИПЯ лексических единиц, а также оценивают полезность включения новых терминов в словарь с точки зрения поиска. 4.4. При индексировании свободными ключевыми словами, взятыми из текста документа, они должны быть приведены к канонической форме по ГОСТ 7.25. Длину словосочетаний рекомендуется ограничивать двумя-тремя словоформами. Схема индексирования с использованием информационно-поискового тезауруса приведена в приложе нии 2 .

5. ФОРМИРОВАНИЕ ПОИСКОВОГО ОБРАЗА ДОКУМЕНТА

5.1. ПОД состоит из выбранных терминов индексирования, организованных с помощью грамматических средств ИПЯ данной ИПС. 5.2. В состав ПОД могут быть включены следующие категории данных, предусмотренные технологией индексирования конкретной ИПС: степень нормализации терминов индексирования и применяемый для этого словарь; индивидуальные характеристики термина индексирования; связь терминов индексирования в синтаксических конструкциях ПОД. Для включения в ПОД фактографических данных применяют грамматические категории, указанные в разд. 6 . 5.3. По степени нормализации различают два типа терминов координатного индексирования: дескрипторы и ключевые слова. 5.4. Термины индексирования должны быть представлены в ПОД в соответствии с орфографическими правилами используемого в системе естественного языка. 5.4.1. Дескрипторы допускается представлять условными кодами, которые указаны в используемом словаре индексирования. В этом случае ИПС должна обеспечивать автоматический поиск орфографических форм дескрипторов по их кодам. 5.4.2. Ключевые слова в многоязычных информационных системах, с ПОД на основе различных национальных языков, должны быть снабжены пометами о принадлежности к тому или иному естественному языку. 5.5. Индивидуальные характеристики терминов индексирования являются факультативными элементами ПОД и их используют для уточнения содержания документа, организации процедур информационного поиска или дальнейшей аналитико-синтетической обработки документов в системе. К индивидуальным характеристикам относят данные о семантической и морфологической категории термина индексирования, его роли и информационном весе, способе получения и предполагаемом использовании. 5.5.1. Семантическая характеристика термина индексирования заключается в отнесении его к следующим лексикографическим категориям: 1) термин, выражающий научно-техническое понятие; 2) имя собственное, идентификатор; 3) наименование параметра; 4) значение параметра (выраженное текстом или именованной величиной); 5) числовое выражение; 6) обозначение единицы величины. 5.5.2. Морфологическая характеристика термина индексирования заключается в отнесении его к лексикографическим категориям: 1) производное слово; 2) сложное слово; 3) словосочетание; 4) аббревиатура; 5) фрагмент слова. Морфологические характеристики используют в ПОД для реализации в ИПС смыслового анализа лексических единиц на основе их формальных признаков. 5.5.3. Роль термина индексирования указывают в ПОД для уточнения места соответствующего понятия в содержании документа. Для этого особыми указателями роли, принятыми в ИПС, отмечают термины индексирования, отражающие следующие аспекты документа: 1) объект исследования, описания; 2) характеристики, свойства, параметры объекта; 3) методы и средства исследования, технологическую оснастку; 4) составные части, узлы, детали объекта; 5) область применения объекта (отрасль хозяйства, техники, науки); 6) назначение объекта; 7) цель исследования, разработки, описания; 8) результаты исследования, разработки. 5.5.4. Информационный вес термина индексирования отражав в ПОД важность данного понятия для данного документа. Число градаций информационного веса определяется потребностями конкретной ИПС. Следует различать: 1) понятия, выражающие главную тему документа; 2) понятия, выражающие побочные темы документа; 3) понятия, использованные в документе как вспомогательные для изложения его содержания. Допускается использовать указатель отрицательного веса, которым помечают термины индексирования для указания на то, что данное понятие не рассматривается в документе. 5.5.5. Пометы, необходимые для указания на способ получения термина индексирования, используют для организации технологического процесса индексирования. Следует различать следующие пометы: 1) термин назначен по усмотрению индексатора, но отсутствует в документе; 2) термин введен в ПОД на основании связей, указанных в тезаурусе, но отсутствует в документе; 3) термин получен при автоматическом индексировании. 5.5.6. Пометы о предполагаемом использовании термина индексирования вводят в ПОД с целью выделить лексические единицы, подлежащие специальной обработке в процессах дальнейшей аналитико-синтетической переработки информации. Следует различать следующие пометы: 1) термин используется как предметная рубрика указателей; 2) при данном термине индексирования имеются фактографические данные, указанные в ПОД; 3) термин используется только как уточняющий определитель к другим терминам. 5.6. Термины индексирования в ПОД могут быть снабжены указателями связи, объединяющими их в синтаксические конструкции, которые отражают: 1) порядок следования и взаимное расположение терминов индексирования в документе; 2) смысловые связи понятий в документе; 3) парадигматические связи дескрипторов в тезаурусе. Синтаксические конструкции рассматривают как цельные единицы ПОД наряду с терминами индексирования. Они могут быть объединены с другими синтаксическими конструкциями или с отдельными терминами индексирования в конструкции более высокого порядка. Число уровней иерархии синтаксических конструкций определяется потребностями конкретных ИПС. Не следует применять конструкции четвертого и более высоких порядков. Синтаксические конструкции могут быть охарактеризованы указателями веса, роли и предполагаемого использования аналогично индивидуальным терминам индексирования (см. п.п. 5.5.3 , 5.5.4, 5. 5.6). 5.7. Запись ПОД в памяти ИПС обусловлена принятым в ней способом кодирования с учетом требований настоящего раздела и ГОСТ 7.52.

6. ФАКТОГРАФИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТА

6.1. Фактографическое индексирование документа (ФИД) заключается в выявлении в документе и включении в ПОД данных, выражающих конкретные сведения (сообщения), имеющиеся в документе. На основании результатов ФИД в фактографических ИПС формируются массивы сведений, в которых единицей информации является фактографическая запись. 6.2. ФИД предполагает формальное различение в ПОД двух категорий терминов индексирования, выражающих: 1) темы или объекты сообщения; 2) приписанные этим объектам свойства, являющиеся смыслом сообщения. Соответствующие термины индексирования должны быть связаны друг с другом в синтаксическую конструкцию, объединяющую наименование объекта, его характеристики, их значения, единицы величины и отражающую смысловые связи понятий в документе. Дополнительно такая синтаксическая конструкция может быть охарактеризована: 1) показателем модальности; 2) условием истинности. 6.3. Показатель модальности фактографического сообщения определяет различие между сообщениями следующих типов: 1) наблюдаемый факт; 2) допускаемое значение; 3) требование стандарта; 4) плановый показатель; 5) запрет; 6) рекомендация; 7) предположение; 8) условие. Если в информационной системе не используют показатели модальности, то все фактографические сообщения рассматривают как принадлежащие одной модальности, которая должна быть указана в эксплуатационной документации системы. 6.4. Условием истинности фактографического сообщения является другое фактографическое сообщение, связанное с первым в синтаксическую конструкцию вышестоящего уровня. Например: Х = вес продукта Z = 150 г. V = влажность не более 45 %, где Х - характеристика объекта, Z -значение характеристики, Y - условие истинности. Фактографическое сообщение, являющееся условием истинности, должно иметь показатель модальности условия «если », например: (вес продукта = 150 г) (если (влажность не более 45 %)). 6.5. Термины индексирования, выражающие тему (объект) сообщения, относятся к категориям 1 или 2, указанным в п. 5.5.1 . При использовании категории 1 термину индексирования может быть дополнительно приписан показатель единичности или общности объекта (квантор). Квантор общности используют в сообщениях, где выражено утверждение обо всех объектах, попадающих в объем соответствующего понятия. Квантор единичности используют в сообщениях, где выражена информация о том объекте, входящем в состав данного понятия, который рассматривается в данном документе. 6.6. Термины индексирования, выражающие свойства объектов, которые составляют смысл сообщения, могут быть выражены лексическими единицами категорий 1, 2, 3 (с м. п. 5.5.1) или параметрической конструкцией (см. п. 5.6). 6.7. Параметрическая конструкция должна состоять из двух формально выраженных частей: наименования параметра и перечня значений параметра (см. п. 6.8), которые объединены в одну синтаксическую конструкцию. 6.8. Перечень значений в параметрической конструкции должен включать набор значений параметров и указание об альтернативности или одновременности (симультанности) значений. Набор значений задают перечислением или указанием двух предельных значений, между которыми располагаются значения, принимаемые параметром (интервалом значений). При задании интервала значений формально указывают, которое из значений является начальным и конечным для интервала значений, а также входят ли граничные значения в указанный интервал. Одно из граничных значений интервала может отсутствовать, если значение параметра ограничено только с одной стороны. Указание об одновременности используют, когда у одного объекта сообщения наблюдаются все заданные значения параметра. Указание об альтернативности используют, когда параметры одного объекта сообщения должны быть выбраны из числа заданных. 6.9. Значения параметра могут быть представлены синтаксической конструкцией из двух терминов индексирования - числового выражения и наименования единицы величины - при необходимости производить операции расчета или численного сравнения.

7. АВТОМАТИЗИРОВАННОЕ ИНДЕКСИРОВАНИЕ

7.1. Целью автоматизации индексирования является минимизация материальных и человеческих ресурсов, затрачиваемых на процедуру индексирования, а также достижение стабильности и единообразия ее результатов. 7.2. Автоматизированное индексирование (АИ) осуществляют по: 1) тексту первичного документа. 2) заглавию и аннотации или реферату документа; АИ по тексту первичного документа должно включать процедуру сжатия ПОД. 7.3. С использованием вычислительной техники осуществляют следующие содержательные этапы АИ: 1) выявление информативных частей документа; 2) идентификация слов текста и приведение их к нормализованному виду (морфологический анализ и синтез); 3) формирование списка ключевых слов исходного текста; 4) подбор дескрипторов по тезаурусу; 5) формирование ПОД. 7.4. Выявление информативных частей документа Технология АИ должна предусматривать идентификацию и предоставление индексатору или программе индексирования наиболее информативных фрагментов документа из списка указанных в п. 2. 1 . Могут быть предусмотрены алгоритмы выявления информативных фрагментов по другим формальным критериям, а также по решению специалиста-индексатора. 7.5. Идентификация слов текста 7.5.1. Процесс идентификации слов текста должен включать: отождествление словоформ одного слова и определение информативных слов текста. При этом может быть необходимо использование интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических конструкций, выявление и разрешение омонимии. 7.5.2. Для идентификации слов текста используют машинные словари (словари основ, парадигм, словосочетаний и т.д.). Словари должны быть представлены в базе данных системы и обеспечены средствами визуализации и ведения. 7.6. Формирование списка ключевых слов текста 7.6.1. В процессе формирования списка ключевых слов текста проводится синтаксический анализ текста с учетом правил сочетаемости грамматических категорий данного естественного языка. 7.6.2. Синтаксический анализ текста решает задачи: 1) разделение текста на фрагменты по заданным критериям; 2) установление синтаксических зависимостей между словоформами текста; 3) отождествление словосочетаний; 4) нормализация выявленных ключевых слов. 7.7. Автоматическое формирование ПОД 7.7.1. В процедуре A И допускается формирование ПОД из свободных ключевых слов или дескрипторов информационно-поискового тезауруса, используемого в данной области. 7.7.2. При АИ дескрипторами информационно-поискового тезауруса на этапе формирования ПОД происходит замена ключевых слов на дескрипторы, указанные в тезаурусе. 7.7.3. При формировании ПОД из дескрипторов возможно обогащение ПОД за счет пополнения вышестоящими терминами информационно-поискового тезауруса. 7.7.4. Процедура АИ должна предусматривать включение в ПОД типовых грамматических средств (см. р азд. 5). 7.7.5. К системам АИ предъявляются следующие требования: 1) модульность построения, т.е. такая внутренняя организация лингвистического и программного обеспечения системы при которой процедуры решения отдельных задач АИ реализуются с помощью самостоятельных блоков или модулей; 2) ориентация на типовые программные и технические средства; 3) соответствие действующей нормативно-методической документации по координатному индексированию.

ПРИЛОЖЕНИЕ 1

Справочное

ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ

1. Автоматизированное индексирование - индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и может включать применение интеллектуальных процедур при принятии основных решений о составе поискового образа. 2. Автоматическое индексирование - составление поискового образа с использованием только формальных процедур обработки текста документа или запроса, осуществляемых средствами вычислительной техники. 3. Информативное слово - слово или словосочетание в тексте документа или запроса, которое несет в нем существенную смысловую нагрузку. 4. Контролируемое индексирование - индексирование, при котором предусмотрена замена информативных слов текста дескрипторами, указанными в определенном информационно-поисковом тезаурусе или другом словаре индексирования. 5. Координатное индексирование - индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования. 6. Лексическая единица (ЛЕ) ИПЯ - последовательность символов, слово, словосочетание, фрагмент слова или условное обозначение, которая рассматривается в данном ИПЯ как элементарная единица, используемая для представления в поисковых образах документов или запросов определенного понятия, объекта или значения параметра. 7. Свободное индексирование - индексирование, технология которого не предусматривает замену информативных слов текста в соответствии с рекомендациями специального словаря индексирования. 8. Специфический термин - информативное слово, в наибольшей степени отряжающее содержание документа, использование которого отличает данный документ от других тематически близких документов. 9. Специфичность индексирования - характеристика качества индексирования, определяемая отношением числа специфических терминов и фактографических сведений к числу неспецифических терминов в поисковом образе. 10. Полнота индексирования - степень отражения в поисковом образе содержания документа и (или) запроса, определяемая как отношение числа специфических терминов и фактографических сведений, включенных в поисковый образ, к числу таковых терминов и сведений, имеющихся в тексте документа или запроса. 11. Фактографическое индексирование - индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (сообщений), являющихся смыслом данного документа.

ПРИЛОЖЕНИЕ 2

Справочное

СХЕМА ИНДЕКСИРОВАНИЯ ПО ИНФОРМАЦИОННО-ПОИСКОВОМУ ТЕЗАУРУСУ

1. Изучить документ и составить перечень существенных для его содержания понятий с учетом специфики ИПС. 2. Рассмотреть первое понятие. 3. Найти в тезаурусе лексическую единицу, отражающую данное понятие. Если таковой нет, перейти к п. 11 . 4. Если найденная лексическая единица - аскриптор, заменить ее указанным в ссылке дескриптором (или комбинацией дескрипторов). 5. Рассмотреть ссылки, указанные в тезаурусе для данного дескриптора (дескрипторов). 6. Проверить, не являются ли указанные в ссылках дескрипторы более специфичными для выражения данного понятия. Если да, то перейти к п. 10 . 7. Записать найденные лексические единицы в поисковый образ, снабдив их необходимыми грамматическими показателями по правилам данного ИПЯ. 8. Проверить, имеются ли еще не отраженные в поисковом образе понятия из документа и рассмотреть следующее понятие. Перейти к п. 3 . 9. Если список понятий документа исчерпан, окончить работу. 10. Заменить исходный дескриптор более специфичными согласно указанию ссылки в тезаурусе. Перейти к п. 7. 11. Найти в тезаурусе дескрипторы, совместное включение которых в поисковый образ отражает данное понятие. Если таковых нет, перейти к п. 12, если есть - перейти к п. 5. 12 . Установить термин, выражающий понятие и удовлетворяющий требованиям к дескрипторам по ГОСТ 7.25. 13. Направить найденный термин в службу ведения ИПЯ в качестве кандидата на включение в тезаурус. Перейти к выполнению п. 7. 14. Конец Блок-схема индексирования по информационно-поисковому тезаурусу показана на чертеже.Блок-схема алгоритма индексирования

ИНФОРМАЦИОННЫЕ ДАННЫЕ

1. РАЗРАБОТАН И ВНЕСЕН Государственным комитетом СССР по науке и технологиям и Техническим комитетом ТК 191 «Научно-техническая информация, библиотечное и издательское дело» РАЗРАБОТЧИКИ В.И. Белоозеров, канд. филол. наук (руководитель темы); Н.Д. Кравченко, канд. пед. наук; И.В. Тростникова; Н.А. Сливницина; Г.Н. Хондкариан; В.Н. Казаков, канд. техн. наук 2. УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Комитета стандартизации и метрологии СССР от 27.03.92 № 297 Настоящий стандарт разработан методом прямого применения стандарта ИСО 5963-85 «Документация. Методы анализа документов, определения их тематики и выбора терминов индексирования» с дополнительными требованиями, отражающими потребности народного хозяйства 3. Срок первой проверки - 1995г. Периодичность проверки - 5 лет 4. РАЗРАБОТАН ВПЕРВЫЕ 5. ССЫЛОЧНЫЕ НОРМАТИВНО-ТЕХНИЧЕСКИЕ ДОКУМЕНТЫ

1. Общие положения 1
2. Анализ документа 2
3. Выбор понятий, характеризующих содержание документа 2
4. Выбор терминов индексирования 3
5. Формирование поискового образа документа 4
6. Фактографическое индексирование документа 6
7. Автоматизированное индексирование 7
Приложение 1 (справочное) Термины и определения 8
Приложение 2 (справочное) Схема индексирования по информационно-поисковому тезаурусу 9

Система индексирования (СИ) - совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ .

Рассмотрим классификацию систем индексирования .

1. По степени автоматизации процесса индексирования выделяют системы:

Ручного индексирования;

Автоматического индексирования

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

С эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

Со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: