Организация поиска в полнотекстовых базах данных технологического назаначения.


Уважаемый посетитель! На этой странице нашего сайта вы увидите цикл материалов под общим заголовком «Метод многослойного фильтрования». Для того, чтобы Вам было удобно весь предоставленный на сайте материал разделен на страницы как, например, сделано у стандартной книги.


Читать предыдущие записи К оглавлениюЧитать дальше

ОРГАНИЗАЦИЯ ПОИСКА В ПОЛНОТЕКСТОВЫХ БАЗАХ ДАННЫХ ТЕХНОЛОГИЧЕСКОГО НАЗАНАЧЕНИЯ

А.Н. Сисюков, А.Н. Филиппов СПбГУ ИТМО, Россия

В настоящее время имеется ряд подходов к проблеме представления технологической информации, содержащейся в документе и в коллекции. Рассмотрим два наиболее часто используемых подхода.

Первый подход условно можно назвать статистическим. В рамках этого подхода документ рассматривается как последовательность слов, которые могут группироваться в более крупные структуры (предложения, абзацы и т.п.). Возможно выделение особых частей документа, таких как заголовок, резюме, список литературы и т.п. Главное, в этом подходе не анализируется смысл отдельных слов, предложений и всего текста документа. Учитывается информация только о структуре текста документа, прежде всего о частоте вхождения в текст отдельных слов.

Второй подход условно назовем семантическим. В рамках этого подхода делается попытка выявить смысл текста за счет анализа грамматики текста, использования различных специальных словарей и тезаурусов, отражающих семантические связи между отдельными словами и их группами [1]. Очевидно, что этот подход ориентирован на конкретный язык и требует выполнения большой работы по составлению специальных словарей и тезаурусов для каждой отдельной тематики, затронутой в коллекции.

В данной работе рассмотрен прежде всего статистический подход. Однако, при этом активно используются словари и тезаурусы, используемые в АБИС КОЛИБРИ [4]. Т.е., применяются некоторые элементы методов семантического анализа. Мы не будем описывать математический аппарат, применяемый в алгоритмах - с ними можно ознакомиться в работах [2-3]. Цель данной работы носит утилитарный характер и сводится к созданию библиотеки функций статистического анализа текстов технологического назначения базируясь на опыте их применения в АБИС «Колибри» [4].

Реализована функция статистического анализа документа (использовался документ в формате RTF). При работе с анализируемым документом могут быть применены два режима анализа текста:

 автоматический - тематика документа выбирается без участия эксперта;

 экспертный - тематика документа предлагается экспертом

При работе в автоматическом режиме функция сама определит тематику текста, исходя из максимального количества вхождений в анализируемый текст ключевых слов. Полученные на выходе термины будут проиндексированы.

Для статистического анализа текстов мы используем базу неконтролируемых предметных терминов (ключевые слова).

Индикатор уровня значимости тематического термина:

 = 0 - уровень значимости не устанавливается;

 = 1 - первичный термин (отражает основное содержание или тему документа);

 = 2 - вторичный термин (отражает менее существенные детали содержания).

В некоторых случаях значение индикатора используется для кластеризации. Неформально, цель кластеризации некоторого множества объектов состоит в выделении таких их подмножеств (кластеров), что все объекты, попавшие в один кластер, в некотором смысле близки друг другу. Задача кластеризации возникает в технологической области и во многих прикладных областях. В области информационного поиска в качестве примера можно привести следующие две задачи.


Читать предыдущие записиК оглавлениюЧитать дальше