Литература:.


Приветствуем, уважаемый посетитель! На текущей странице нашего сайта вы сможете найти широкий сборник статей по теме «Метод многослойного фильтрования». Для того, чтобы Вам было удобно весь предоставленный на сайте материал разделен на разделы подобно обычной книги.


Читать предыдущие записи К оглавлениюЧитать дальше

• Кластеризация документов в коллекции

• Кластеризация результатов поиска.

Индикатор первичного термина используется для кластеризации индексов. Это позволяет различать вторичные термины-омонимы. Пример вхождения терминов: графа (как колонка таблицы) или математического графа (возможно упоминание графа Толстого).

Следует заметить, что для анализа полнотекстовых баз кроме неконтролируемых предметных терминов могут быть использованы и другие источники: например индексы УДК, индексы ББК, индексы ГРНТИ. Однако, в отличие от базы неконтролируемых предметных терминов, которая хранится в виде двумерного массива, базы индексов УДК, ББК и ГРНТИ хранятся в виде дерева и для их извлечения потребуется произвести обработку, с использованием довольно сложных алгоритмов. С другой стороны, применение этих классификаторов далеко не всегда приведет к желаемому результату, поскольку формализованные термины, с помощью которых классифицируется тематика, зачастую просто отсутствуют в тексте.

Опытное тестирование функций латентного индексирования, с одной стороны, доказало работоспособность реализованных алгоритмов, с другой стороны, подтвердило тезис о необходимости "естественно-тематической классификации текстов на основе выделения значимых терминов предметной области по признаку превышения общеупотребительной частоты" [2]. Другими словами, качество анализа текста в первую очередь зависит от качества применяемых в данной предметной области справочников.

ЛИТЕРАТУРА:

1. В.А. Тузов. Семантический анализ текстов на русском языке. Вестник СПбГУ, 1998.

2. И.С. Некрестьянов, В.Ю. Добрынин, В.В. Клюев. Оценка тематического подобия текстовых документов. Труды второй всероссийской научной конференции «Электронные библиотеки». -Протвино, 2000.

3. Добрынин В.Ю. Методические указания к курсу «Теория информационнологических систем. Информационный поиск». http://ir.apmath.spbu.ru/

4. А.Н. Филиппов, А.Н. Сисюков. АБИС "КОЛИБРИ" - АРМ "иностранная литература". 10-я международная конференция «Крым 2003». Библиотека и доступность информации в современном мире: электронные ресурсы для науки, культуры и образования. Июнь 2003. В печати и по http://www.gpntb.ru/win/inter- events/crimea2003/trud/tom1/sec/doc27.html


Читать предыдущие записиК оглавлениюЧитать дальше