Ланде Д.В., Жигало В.В. Метапоисковая система PDF Science Search //

М╕жнародна наукова-техн╕чна конференц╕я "╤нтелектуальн╕ технолог╕╖ л╕нгв╕стичного анал╕зу": Тези допов╕дей. - К.: Вид-во Нац. ав╕ац. ун-ту "НАУ-друк", 2009. - C. 36






В настоящее время в веб-пространстве содержится большое количество документальных ресурсов, представленных в формате PDF. Вместе с тем, при поиске необходимой документации с помощью традиционных сетевых информационно-поисковых систем (ИПС) пользователь постоянно сталкивается с проблемами, связанными с плохой доступностью целевой информации. Система PDF Science Search (PDFSS) основана на использовании существующих сетевых ИПС, таких как scholar.google.com, yandex.ru, rambler.ru. Основная идея данной метапоисковой системы состоит в том, чтобы находить в Сети pdf-файлы без сопровождающего их информационного шума или рекламы (до настоящего времени такой системы не существовало). Особенностью PDFSS является то, что она полностью направлена на поиск доступных пользователю pdf-файлов, с возможностью фильтрации платных ресурсов, текстовых описаний, всего, кроме самих файлов. PDFSS использует другие ИПС для наполнения собственной базы данных (БД, кеша системы). После того, как пользователь вводит запрос система отправляет его каждой из выбранных ИПС, обрабатывает полученные данные, дополняет информацией, такой как, наличие файла в БД, существование файла по данному адресу в Интернет и выявляет подобные файлы из других источников. Система собирает новые адреса файлов, после чего в фоновом режиме производит их скачивание и занесение метаинформации в БД (наличие файла по адресу, доступность сервера). Кроме того, происходит индексация и сохранение текстовых образов pdf-файлов в кеше системы. Система PDFSS содержит встроенную ИПС, обеспечивающую поиск в кеше системы как по названиям файлов, так и по контексту. Данная ИПС обеспечивает ранжирование результатов поиска, а также просмотр текстовых образов найденных документов. Система PDFSS доступна по адресу http://chaos.in.ua/.

P e к л а м a: