Литература:.


Приветствуем Вас на нашем сайте! Вы находитесь на странице нашего сайта вы найдете обширный цикл материалов на тему «Проблемы надежности машин и механизмов». Чтобы вам было удобно читать весь предоставленный на сайте материал аккуратно разделен на страницы как, например, сделано у бумажной книжной продукции.


Читать предыдущие записи К оглавлениюЧитать дальше

• Кластеризация документов в коллекции

• Кластеризация результатов поиска.

Индикатор первичного термина используется для кластеризации индексов. Это позволяет различать вторичные термины-омонимы. Пример вхождения терминов: графа (как колонка таблицы) или математического графа (возможно упоминание графа Толстого).

Следует заметить, что для анализа полнотекстовых баз кроме неконтролируемых предметных терминов могут быть использованы и другие источники: например индексы УДК, индексы ББК, индексы ГРНТИ. Однако, в отличие от базы неконтролируемых предметных терминов, которая хранится в виде двумерного массива, базы индексов УДК, ББК и ГРНТИ хранятся в виде дерева и для их извлечения потребуется произвести обработку, с использованием довольно сложных алгоритмов. С другой стороны, применение этих классификаторов далеко не всегда приведет к желаемому результату, поскольку формализованные термины, с помощью которых классифицируется тематика, зачастую просто отсутствуют в тексте.

Опытное тестирование функций латентного индексирования, с одной стороны, доказало работоспособность реализованных алгоритмов, с другой стороны, подтвердило тезис о необходимости "естественно-тематической классификации текстов на основе выделения значимых терминов предметной области по признаку превышения общеупотребительной частоты" [2]. Другими словами, качество анализа текста в первую очередь зависит от качества применяемых в данной предметной области справочников.

ЛИТЕРАТУРА:

1. В.А. Тузов. Семантический анализ текстов на русском языке. Вестник СПбГУ, 1998.

2. И.С. Некрестьянов, В.Ю. Добрынин, В.В. Клюев. Оценка тематического подобия текстовых документов. Труды второй всероссийской научной конференции «Электронные библиотеки». -Протвино, 2000.

3. Добрынин В.Ю. Методические указания к курсу «Теория информационнологических систем. Информационный поиск». http://ir.apmath.spbu.ru/

4. А.Н. Филиппов, А.Н. Сисюков. АБИС "КОЛИБРИ" - АРМ "иностранная литература". 10-я международная конференция «Крым 2003». Библиотека и доступность информации в современном мире: электронные ресурсы для науки, культуры и образования. Июнь 2003. В печати и по http://www.gpntb.ru/win/inter- events/crimea2003/trud/tom1/sec/doc27.html


Читать предыдущие записиК оглавлениюЧитать дальше