Применение метода аннотированного суффиксного дерева в задачах поиска в коллекциях текстовых документов
Отзывы
Оценка читателей
0.0 (0 голосов)


Всего просмотров
522


Скачивания
63
Образовательные программы
УДК
3 ОБЩЕСТВЕННЫЕ НАУКИ
Дата выпуска
01.10.2015
Год выпуска
2015
ISBN
1998-0663
Применение метода аннотированного суффиксного дерева в задачах поиска в коллекциях текстовых документов
Аннотация
В работе представлен метод информационного поиска в коллекциях текстовых документов, основанный на аннотированных суффиксных деревьях (АСД). В методе используется определение степени вхождения строки в АСД, полученные для документов, а также обратный индекс, построенный по фрагментам документов (с целью улучшения производительности). На основе представленного метода реализована поисковая система и произведено ее сравнение с алгоритмами поиска, использующими другие способы агрегированного представления текстов (всей коллекции целиком) – вероятностным латентно-семантическим индексированием (PLSI) и скрытым размещением Дирихле (LDA). Для проведения вычислительных экспериментов использованы реальные данные: коллекция xml-каталогов онлайн-магазина и коллекция веб-страниц (обе – на русском языке), а также пользовательские поисковые запросы, полученные с помощью сервиса Yandex.Wordstat. Исследованы качественные метрики рассматриваемых систем: получены точечные оценки и графические характеристики. Метод поиска, основанный на АСД, в целом показывает результаты, сравнимые с другими алгоритмами, однако, на неточных запросах существенно превосходит их. Была исследована производительность сравниваемых поисковых систем, в результате отмечено, что метод на основе АСД несколько уступает другим по скорости поиска. Также изучена зависимость между временем выполнения запроса и длиной строк текста, используемых для построения АСД: для улучшения производительности необходимо выбирать минимально возможную длину строк, принимая во внимание тот факт, что слишком короткие строки могут ухудшить качественные характеристики метода. Отдельно отмечен факт применимости метода на основе АСД к задачам нечеткого поиска, что должно стать предметом будущих исследований.
Полная версия доступна только подписчикам
Подпишитесь прямо сейчас