Организация поиска в полнотекстовых базах данных технологического назаначения.


Уважаемый читатель! На этой странице вы сможете отыскать обширный цикл статей под общим заголовком «Проблемы надежности машин и механизмов». Для удобства чтения весь представленный материал аккуратно разделен на части подобно обычной книжной продукции.


Читать предыдущие записи К оглавлениюЧитать дальше

ОРГАНИЗАЦИЯ ПОИСКА В ПОЛНОТЕКСТОВЫХ БАЗАХ ДАННЫХ ТЕХНОЛОГИЧЕСКОГО НАЗАНАЧЕНИЯ

А.Н. Сисюков, А.Н. Филиппов СПбГУ ИТМО, Россия

В настоящее время имеется ряд подходов к проблеме представления технологической информации, содержащейся в документе и в коллекции. Рассмотрим два наиболее часто используемых подхода.

Первый подход условно можно назвать статистическим. В рамках этого подхода документ рассматривается как последовательность слов, которые могут группироваться в более крупные структуры (предложения, абзацы и т.п.). Возможно выделение особых частей документа, таких как заголовок, резюме, список литературы и т. п. Главное, в этом подходе не анализируется смысл отдельных слов, предложений и всего текста документа. Учитывается информация только о структуре текста документа, прежде всего о частоте вхождения в текст отдельных слов.

Второй подход условно назовем семантическим. В рамках этого подхода делается попытка выявить смысл текста за счет анализа грамматики текста, использования различных специальных словарей и тезаурусов, отражающих семантические связи между отдельными словами и их группами [1]. Очевидно, что этот подход ориентирован на конкретный язык и требует выполнения большой работы по составлению специальных словарей и тезаурусов для каждой отдельной тематики, затронутой в коллекции.

В данной работе рассмотрен прежде всего статистический подход. Однако, при этом активно используются словари и тезаурусы, используемые в АБИС КОЛИБРИ [4]. Т.е., применяются некоторые элементы методов семантического анализа. Мы не будем описывать математический аппарат, применяемый в алгоритмах - с ними можно ознакомиться в работах [2-3]. Цель данной работы носит утилитарный характер и сводится к созданию библиотеки функций статистического анализа текстов технологического назначения базируясь на опыте их применения в АБИС «Колибри» [4].

Реализована функция статистического анализа документа (использовался документ в формате RTF). При работе с анализируемым документом могут быть применены два режима анализа текста:

 автоматический - тематика документа выбирается без участия эксперта;

 экспертный - тематика документа предлагается экспертом

При работе в автоматическом режиме функция сама определит тематику текста, исходя из максимального количества вхождений в анализируемый текст ключевых слов. Полученные на выходе термины будут проиндексированы.

Для статистического анализа текстов мы используем базу неконтролируемых предметных терминов (ключевые слова).

Индикатор уровня значимости тематического термина:

 = 0 - уровень значимости не устанавливается;

 = 1 - первичный термин (отражает основное содержание или тему документа);

 = 2 - вторичный термин (отражает менее существенные детали содержания).

В некоторых случаях значение индикатора используется для кластеризации. Неформально, цель кластеризации некоторого множества объектов состоит в выделении таких их подмножеств (кластеров), что все объекты, попавшие в один кластер, в некотором смысле близки друг другу. Задача кластеризации возникает в технологической области и во многих прикладных областях. В области информационного поиска в качестве примера можно привести следующие две задачи.


Читать предыдущие записиК оглавлениюЧитать дальше