Что представляет собой индексирование документов его этапы. Индексирование. Логическая схема обработки запроса Яндекса

Процедуру перевода с естественного языка на ИПЯ называют индексированием . Результатом такого перевода является ПОД (при вводе документов в ИПС) или ПОЗ (при индексировании запроса пользователя).

Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с тем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени.

Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых ключевых слов, дескрипторов, фраз (в зависимости от лексических единиц ИПЯ).

Важность можно определить несколькими признаками:

  • статистическими, т.е. на основе частоты использования термина в документе;
  • на основе высказываний автора (его мнения, отраженного в заглавии документа или подзаголовках, выделяемых автором в документе);
  • с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в контексте;
  • по критериям важности, сформулированным пользователем, для чего при индексировании документов могут быть указаны весовые коэффициенты дескрипторов.

Система индексирования конкретной ИПС определяется в основном возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами. Однако есть и некоторые специфические правила и рекомендации, исследование которых позволило выявить некоторые разновидности систем индексирования.

Существуют различные типы систем индексирования.

1. К первому типу относят системы свободного индексирования.

При этом способе из индексируемого документа выписываются в ПОД слова или словосочетания, которые отражают содержание индексируемого документа. Кроме этого, элементами ПОД могут быть слова, отсутствующие в этих документах, но отражающие более точно смысл их текстов с точки зрения целей создания ИПС. Выписанные элементы упорядочиваются в алфавитном порядке. Такой упорядоченный набор слов (словосочетаний) представляет собой ПОД при этом типе индексирования. Аналогично – из текста запроса пользователя формируется ПОЗ.

Такой процесс индексирования является принципиально неалгоритмическим, т.е. неавтоматизируемым.

2. При втором методе, который условно называют методом полусвободного индексирования, из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании.

Однако выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем – устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД (или ПОЗ).

3. Третий способ индексирования основан на статистическом подходе.

Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющие семантических значений. При этом предлагались различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительном массиве документов (т.е. в репрезентативной статистической выборке).

Например, в предлагаются следующие количественные критерии:

где F – относительная частота употребления слова в документе; R – относительная частота употребления слова в представительном массиве документов.

Легко видеть, что в основе приведенных соотношений лежит идея, согласно которой информационная значимость слова определяется расхождением частоты его употребления в данном документе и во всем потоке рассматриваемых документов.

Возможны различные подходы к определению расхождения:

  • согласно первому вычисляется расхождение между частотой употребления слов в потоке документов данной тематики (монотематический поток) и частотой встречаемости этого слова в многотемном потоке документов (политематический поток);
  • второй принцип основан на вычислении расхождения частоты употребления слова в потоке текстов данной тематики и частоты этого же слова в потоке текстов тематики, далекой от данной ("противоположной" тематики).

Статистический способ индексирования может быть алгоритмизирован и автоматизирован, и в настоящее время имеются средства автоматизированного статистического анализа текстов.

Однако самостоятельного практического применения в ИПС этот способ не нашел, он используется как вспомогательный в сочетании с семантическим анализом текстов документов.

4. К четвертому типу относят системы индексирования, контролируемые заданным словарем (тезаурусом ).

Алгоритм индексирования сводится к тому, что каждое слово текста сравнивается с точностью до основы со словарем, совпавшие слова записываются в ПОД.

В некоторых системах словарь используется как помощник специалисту, занимающемуся индексированием текста.

К таким системам относится, например, УДК. В других – такой словарь является элементом алгоритма индексирования: слово, одновременно встретившееся в тексте и в словаре, записывается в ПОД. В дескрипторных ИПЯ в ПОД

(ПОЗ) записываются не само слово текста, а соответствующий ему дескриптор.

Перспективным представляется индексирование документов с использованием специально разработанных иерархических классификаций, отражающих цели поиска и использования документов.

Такие классификаторы могут использоваться в качестве ИПЯ в информационных системах нормативно-методического обеспечения управления: иерархический классификатор, объединяющий нормативно-методические документы, разрабатывается на основе структуры целей (основных направлений) и функций деятельности предприятия.

Иерархический классификатор ИПЯ может быть основой системы избирательного распределения информации (ИРИ): разрабатывается классификатор потребностей категории работников, пользующихся системой ИРИ.

  • При подготовке этого раздела использовалась классификация, предложенная в работе: Певзнер Б. Р. Информационно-поисковые системы и информационно-поисковые языки / Б. Р. Певзнер. М.: ИПКИР, 1974. С. 10-11.

Системы индексирования

Система индексирования (СИ) - совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.

Рассмотрим классификацию систем индексирования.

1. По степени автоматизации процесса индексирования выделяют системы:

Ручного индексирования;

Автоматического индексирования;

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

С эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

Со статистическими процедурами выбора слов (отбираются
только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

Без лексикографического контроля;

С полным контролем;

С промежуточным контролем.

Лексикографический контроль предусматривает:

Устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

Нормализацию слов на основе морфологических нормативных
словарей.

5. По характеру морфологического анализа слов различают системы:

С использованием морфологических словарей;

С использованием основных лексических словарей;

С использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Каждый процесс, происходящий в поисковых системах, уникален и интересен. Зная архитектуру поисковой системы, можно понимать причины "выпадения" сайта из выдачи или повышения позиций. Рассмотрим каждый процесс в отдельности.

Индексация - это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс - выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.

Рассмотрим процесс индексации на примере поисковой системы Яндекс.

В поисковой системе есть 2 типа роботов: быстрый и основной . Задача основного робота - индексация всего контента, а быстрого - занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования Яндекса, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит обновление содержащейся на ней информации.

Документы в индекс попадают следующими способами: автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам, ибо если владелец сайта сам добавил URL через специальную форму или через установленную на сайте Яндекс.Метрику . Этот сервис передает URL страниц на индексацию Яндексу. При необходимости в интерфейсе Метрики можно отключить данную опцию.

Скорость индексации и обновления страниц сайта

В идеале, как только создана новая страница, она должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют индексацию новых страниц и обновление старых. Роботы поисковых систем постоянно обновляют базу данных, но, чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам, и другие ненужные, по мнению поисковика, документы.

Робот, определяющий зеркала , проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковой системы будет только один сайт - главное зеркало.

Специальный робот проверяет доступность сайта, добавленного через форму «Добавить URL » в Яндекс.Вебмастере.

Существуют и другие типы индексирующих роботов: индексаторы видео и пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках типа Яндекс.Новостей и др.

Важно понимать, что процесс индексации сайта является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений будет виден только через 1-2 недели.




Top