КОНЦЕПЦ╤Я АНОТОВАНОГО ПОШУКУ

С.М. Брайчевський, Д.В. Ланде

Представлено новий п╕дх╕д до орган╕зац╕╖ ╕нформац╕йного пошуку в надвеликих базах даних, породжуваних розвитком сучасних мережних технолог╕й. Основна ╕дея концепц╕╖ поляга╓ в п╕двищенн╕ р╕вня пертинентност╕ в╕дгук╕в ╕нформац╕йно-пошуково╖ системи за рахунок деякого зниження р╕вня повноти пошуку. Технолог╕чною основою дано╖ концепц╕╖ служить ╕нструментар╕й автоматичного реферування текст╕в, а також методи кластерного анал╕зу, що забезпечують автоматичне групування документ╕в. Пропону╓ться методика скорочення реального обсягу пошукового простору.

Вступ

Парадокс у розвитку мережних пошукових систем поляга╓ в тому, що ╖хн╓ техн╕чне вдосконалювання в рамках традиц╕йно╖ парадигми неминуче приводить до лавинопод╕бного зростання баз даних, ╕ в╕дпов╕дно, обсяг╕в релевантних виб╕рок, як╕ к╕нцевий споживач у п╕дсумку не в змоз╕ обробити [1]. Сучасн╕ технолог╕╖ дозволяють зд╕йснювати витончен╕ операц╕╖ над даними, але чим ефективн╕ше вони застосовуються, тим менш "╖ст╕вним" виявля╓ться результат. Схоже, що техн╕чний прогрес у цьому випадку не пол╕пшу╓, а пог╕ршу╓ ситуац╕ю.

╤снуюч╕ ╕нформац╕йно-пошуков╕ системи перв╕сно проектувалися для забезпечення релевантност╕ виб╕рки в по╓днанн╕ з вимогою повноти пошуку, але саме в цьому ╕ поляга╓ ╖хн╕й головний недол╕к. Неконтрольований р╕вень пертинентност╕ виб╕рки при цьому р╕зко знижу╓ ймов╕рн╕сть одержання користувачем саме т╕╓╖ ╕нформац╕╖, що йому потр╕бна.

Причини надлишковост╕ результат╕в стандартного ╕нформац╕йного пошуку можуть бути розд╕лен╕ на дв╕ як╕сно р╕зн╕ категор╕╖: дублювання ╕нформац╕╖ та ╕нформац╕йна нев╕дпов╕дн╕сть. ╤стотним ╓ те, що приналежн╕сть документа до числа дубл╕в носить ц╕лком об'╓ктивний характер ╕ може визначатися автоматично на п╕дстав╕ формальних критер╕╖в. Навпаки, ╕нформац╕йна нев╕дпов╕дн╕сть породжу╓ проблеми суто суб'╓ктивного характеру, тому що машина не в змоз╕ визначити, чи в╕дпов╕да╓ зм╕ст даного документа ╕нформац╕йним потребам даного користувача.

Тому ста╓ ясно, що пошуков╕ технолог╕╖ повинн╕ бути розширен╕ за рахунок застосування додаткових семантичних засоб╕в, що дозволяють або скоротити розрив м╕ж р╕внями релевантност╕ й пертинентност╕, або якось його компенсувати.

Модиф╕кац╕я задач╕ пошуку

Найб╕льш перспективним з ╕снуючих сьогодн╕ напрямк╕в, безсумн╕вно, ╓ автоматичне групування результат╕в пошуку [2], тобто розбивка релевантно╖ виб╕рки документ╕в на кластери. Разом з тим вона не вир╕шу╓ проблему по сут╕, оск╕льки хоча й допомага╓ ор╕╓нтуватися в результатах пошуку, але аж н╕як не приводить до скорочення ╖хн╕х обсяг╕в. Головна перевага автоматичного групування поляга╓ в ╕╓рарх╕чн╕й орган╕зац╕╖ результат╕в пошуку, що дозволя╓ на першому етап╕ мати справу з обмеженим набором кластер╕в, а пот╕м уже переходити до складу того або ╕ншого кластера. Складн╕сть, однак, поляга╓ в тому, що розбивка виб╕рки на групи зд╕йсню╓ться на п╕дстав╕ близькост╕ документ╕в, що розум╕╓ться формально. Ця обставина, природно, приводить до того, що к╕нцевий ефект залежить в╕д багатьох, у тому числ╕ й випадкових, фактор╕в ╕ носить явно неконтрольований характер.

Особливо╖ актуальност╕ набувають п╕дходи, що дозволяють переформулювати задачу пошуку таким чином, щоб його результати д╕йсно могли бути без зусиль сприйнят╕ користувачем.

Одним з головних принцип╕в, покладених в основу б╕льш адекватних п╕дход╕в, на наш погляд, ╓ в╕дмова в╕д вимоги повноти пошуку.

Ц╕лком вартою вигляда╓ постановка задач╕ попередньо╖ обробки початково╖ сукупност╕ документ╕в, що ма╓ на мет╕ сформувати деякий ефективний наб╕р даних, що в╕дбива╓ в розумному наближенн╕ ╖╖ зм╕ст ╕ призначений для подальшого пошуку по ньому.

Сама по соб╕ така постановка задач╕ аж н╕як не ╓ новою: вона широко й усп╕шно застосову╓ться в сфер╕ автоматичного реферування документальних поток╕в. Саме продуктивн╕сть под╕бно╖ методики в сум╕жн╕й област╕ й змушу╓ нас уважно придивитися до ╖╖ можливостей стосовно до ╕нформац╕йного пошуку.

Анотований пошук

У технолог╕чному план╕ пропону╓ться реал╕зац╕я принципу попередньо╖ обробки текстового матер╕алу за допомогою методик, характерних для ╕ншо╖ област╕ ╕нформац╕йних технолог╕й, а саме контент-анал╕зу. Така обробка передбача╓ автоматичне вид╕лення найб╕льш значимо╖ ╕нформац╕╖ ╕ в╕дс╕вання "см╕ття", що дозволить споживачев╕ працювати з наборами даних, досить обмеженими за обсягом, ╕, при правильн╕й орган╕зац╕╖, може ╕стотно п╕двищити р╕вень пертинентност╕ результат╕в пошуку. Концепц╕я також передбача╓ свого роду кластеризац╕ю, однак розпод╕лу по групах п╕дляга╓ не т╕льки релевантна виб╕рка, але й вих╕дний наб╕р документ╕в, у якому ведеться пошук.

У рамках концепц╕╖ використовуються терм╕ни "анотований пошук" й "анотована база даних", оск╕льки, як буде видно нижче, основн╕ алгоритми пошуку ╕ структура бази даних нагадують т╕, як╕ використовуються при автоматичному реферуванн╕.

Центральна ╕дея пропоновано╖ концепц╕╖ поляга╓ в тому, що релевантн╕сть документа варто визначати стосовно деякого його ╕нформац╕йного образа. Причому останн╕й повинен бути побудований саме так, щоб в╕дбивати основний зм╕ст документа. Такий образ документа (або групи документ╕в) у рамках дано╖ концепц╕╖ назива╓ться анотац╕╓ю.

Структура ╕ форма анотац╕╖ не мають принципового значення, але в кожному раз╕ вона повинна м╕стити впорядкований наб╕р терм╕н╕в та/або фраз, що входять до складу в╕дпов╕дного документа ╕ мають певний р╕вень вагових значень. Вага може характеризувати значим╕сть терм╕н╕в або фраз у документ╕ ╕ може визначатися р╕зними методами залежно в╕д властивостей предметно╖ област╕ та поставлено╖ задач╕. Кр╕м того, оск╕льки споживача в остаточному п╕дсумку ц╕кавлять тексти документ╕в, сукупн╕сть анотац╕й повинна бути доповнена системою в╕дпов╕дних посилань. Разом вони утворять деякий наб╕р метаданих, що повинен бути включений у загальну ╕ндексну систему бази даних.

На рисунку наведено схему функц╕онування анотовано╖ бази даних.

Технолог╕чна реал╕зац╕я анотованого пошуку

Як ╕нформац╕йно-технолог╕чна основа розгляда╓ться база даних традиц╕йно╖ ╕нформац╕йно-пошуково╖ системи ╕з властивою ╖й структурою, включаючи, наприклад, ╕ндексн╕, ╕нверсн╕, словников╕ таблиц╕ тощо.

Створення анотовано╖ бази даних ма╓ на уваз╕ створення бази даних пошукових образ╕в первинних документ╕в та ╖х кластеризац╕ю, тобто автоматичне формування груп документ╕в ╕з близькими за деякими критер╕ями пошуковими образами (ПОД).

При формуванн╕ анотовано╖ бази даних найважлив╕ший аспект - формування бази даних анотац╕й, тобто пошукових образ╕в кластер╕в (ПОК), як╕, власне, ╕ будуть використовуватися в процес╕ пошуку. Природно, ця база даних пов'язана з базою даних кластер╕в, кожен запис яко╖ в╕дпов╕да╓ певному кластеру та включа╓, кр╕м усього ╕ншого, його опис (виконаний методами автоматичного реферування).

Методи автоматичного реферування (а точн╕ше кваз╕реферування, заснованого на переважному використанн╕ метод╕в статистичного анал╕зу текст╕в) використовуються, з одного боку, для створення ПОД, а з ╕ншого боку ╕ опис╕в, доступних користувачам.

Задача повнотекстового пошуку по надвеликих текстових масивах може виявитися неефективною, наприклад, в роман╕ "В╕йна ╕ мир" Л.Толстого можна знайти б╕льш╕сть лексем рос╕йсько╖ мови. Пошук по анотованих текстах у таких випадках вир╕шу╓ проблему точност╕. Тобто, зам╕сть пошуку по повних текстах виявля╓ться доц╕льним проводити пошук по анотац╕ях - пошукових образах документ╕в. Хоча кваз╕реферат часто для великих текст╕в виявля╓ться утворенням, що лише в╕ддалено нагаду╓ вих╕дний текст, який при цьому найчаст╕ше не сприйма╓ться людиною, але саме як пошуковий образ документ╕в, що м╕стить зважен╕ ключов╕ слова ╕ фрази, в╕н може приводити до ц╕лком адекватних результат╕в при повнотекстовому пошуку.

Кваз╕реферат у б╕льшост╕ в╕домих систем буду╓ться з текстових фрагмент╕в, що мають найб╕льш╕ вагов╕ значення. Загальна вага текстового блоку на цьому етап╕ визнача╓ться за формулою [3]:

Weight = Location + KeyPhrase + StatTerm

Коеф╕ц╕╓нт Location визнача╓ться розташуванням блоку у вих╕дному текст╕ та залежить в╕д того, де з'явля╓ться даний фрагмент - на початку, у середин╕ або наприк╕нц╕, а також чи використову╓ться в╕н у ключових розд╕лах тексту, наприклад, у висновку.

Ключов╕ фрази (KeyPhrase) являють собою конструкц╕╖-маркери, що резюмують, типу "на зак╕нчення", "у дан╕й статт╕", "в╕дпов╕дно до результат╕в анал╕зу" ╕ т.п. Ваговий коеф╕ц╕╓нт ключово╖ фрази може залежати також в╕д оц╕нного терм╕на, наприклад, "в╕дм╕нний".

Статистична вага текстового блоку (StatTerm) обчислю╓ться як нормована за довжиною цього блоку сума ваг терм╕н╕в, що входять у нього - сл╕в ╕ словосполучень. П╕сля виявлення певно╖, задано╖ коеф╕ц╕╓нтом необх╕дного стиснення, к╕лькост╕ текстових блок╕в з найвищими ваговими коеф╕ц╕╓нтами, вони об'╓днуються для побудови кваз╕реферата.

Сл╕д зазначити, що не т╕льки анотац╕╖ у вигляд╕ ПОК, але ╕ описи окремих елемент╕в у баз╕ даних анотац╕й, доступно╖ на етап╕ пошуку, створюються на основ╕ засоб╕в автоматичного реферування, як╕ на цьому етап╕ не враховують ╕нформац╕йних потреб користувач╕в, виражених пошуковими приписаннями (запитами).

У рамках дано╖ концепц╕╖ передбача╓ться використання метод╕в кваз╕реферування, перевага яких поляга╓ в простот╕ реал╕зац╕╖.

При звертанн╕ користувач╕в до бази даних передбача╓ться така процедура: запит користувача в╕дпрацьову╓ться за базою даних анотац╕й, п╕сля чого пошуковою процедурою викону╓ться формування набору релевантних кластер╕в, найменування та описи яких, з одного боку, можуть пред'являтися користувачам (якщо ╖х к╕льк╕сть не перевищу╓ задано╖ заздалег╕дь), а, з ╕ншого боку, якщо к╕льк╕сть результат╕в пошуку (кластер╕в) перевищу╓ це значення, то результати пошуку автоматично групуються, утворюючи суперкластери, перел╕к яких ╕ пред'явля╓ться користувачев╕.

Природно, в останньому випадку користувачев╕ пред'являються назви суперкластер╕в та ╖хн╕ описи - реферати, складен╕ автоматично вже з урахуванням запит╕в користувач╕в. Тобто, вага текстових фрагмент╕в у цьому випадку опису╓ться уточненою формулою:

Weight = Location + KeyPhrase + StatTerm + UserPref

Коеф╕ц╕╓нт UserPref - переваги, що нада╓ користувач, залежать в╕д того, наск╕льки слова ╕ словосполучення, наведен╕ в його запит╕, присутн╕ в даному фрагмент╕.

Представлення результат╕в пошуку може зд╕йснюватися р╕зними способами, залежно в╕д особливостей предметно╖ област╕, структури документально╖ бази даних, характеру ╕нформац╕йних потреб користувач╕в тощо. В╕дзначимо лише, що сам╕ анотац╕╖, як ми вже в╕дзначали вище, ╓ пошуковими образами - внутр╕шн╕ми елементами системи ╕ користувачев╕ у вих╕дному вид╕ не пред'являються. Тому припуска╓ться, що з метою адекватного в╕дображення результат╕в пошуку кожен побудований кластер забезпечу╓ться описом, що також буду╓ться автоматично та вида╓ться користувачев╕ як "етикетка" кластера, яка, на в╕дм╕ну в╕д анотац╕╖, явля╓ собою зв'язний текст. Дал╕ користувач, якщо побажа╓, може переглянути вс╕ документи, що входять до складу даного кластера.

Припуска╓ться, що при так╕й орган╕зац╕╖ пошуку релевантними виявляться лише т╕ документи, для яких пошуков╕ терм╕ни запиту користувача ╓ ╕нформац╕йно-значимими. Це досяга╓ться вже в силу т╕╓╖ обставини, що сам╕ анотац╕╖ за сво╓ю природою мають саме таку властив╕сть. Наявн╕сть у них винятково терм╕н╕в або фраз ╕з досить великими ваговими значеннями перешкоджа╓ попаданню в релевантну виб╕рку документ╕в, в яких пошуков╕ терм╕ни присутн╕ у вигляд╕ ╕нформац╕йного шуму.

Зак╕нчення

Сл╕д зазначити, що наведена модель у цей час ще не реал╕зована повн╕стю у вигляд╕ програмно-технолог╕чного забезпечення, однак окрем╕ елементи вже створен╕ й пройшли досить велику апробац╕ю. Залишилася справа за малим - запустити цю модель на реальних надвеликих обсягах даних. До реал╕зованих елемент╕в належать: традиц╕йн╕ повнотекстов╕ ╕нформац╕йно-пошуков╕ системи, включаючи авторську розробку - систему InfoRes; алгоритми автоматичного реферування; механ╕зми кластеризац╕╖ як статичних, так ╕ динам╕чних масив╕в ╕нформац╕╖, як╕ знаходять уже сьогодн╕ застосування, наприклад, при виявленн╕ основних сюжет╕в у систем╕ контент-мон╕торингу InfoStream; адаптивн╕ ╕нтерфейси уточнення запит╕в до ╕нформац╕йно-пошуково╖ системи.

Представлена модель ор╕╓нтована на практичну реал╕зац╕ю ╕ у явному вигляд╕ м╕стить ряд технолог╕чних обмежень, головне з яких пов'язане з тим, що на етап╕ ╕ндексування пошуков╕ образи документ╕в створюються без урахування запит╕в користувач╕в. ПОД не ╓ повною коп╕╓ю документ╕в, тому заздалег╕дь не можуть бути врахован╕ вс╕ нюанси ╕нформац╕йних потреб користувач╕в, що може позначитися не т╕льки на повнот╕, але й на релевантност╕. Згладити названу проблему можуть лише витончен╕ ╕нтелектуальн╕ алгоритми автоматичного реферування.

Разом з тим пропонована орган╕зац╕я пошуку дозволить вир╕шити наступн╕ важлив╕ задач╕:

  • автоматичне групування документ╕в ╕ тим самим скорочення реального обсягу простору пошуку;
  • пред'явлення користувачев╕ винятково ╕нформац╕йно значимих документ╕в;
  • при необх╕дност╕ виключення дубл╕в з результат╕в пошуку при збереженн╕ ╖х у сам╕й баз╕ даних.

Згада╓мо, що середня довжина запиту до пошуково╖ системи в ╤нтернет не перевищу╓ 2-3 сл╕в, можливо в тому числ╕ ╕ через це основн╕ проблеми користувача зводяться до вир╕шення проблеми релевантност╕-повноти, ╕, в остаточному рахунку, пертинентност╕ видач╕. Очевидно, пропонована система орган╕зац╕╖ пошуку дозволить ╕стотно п╕двищити його приваблив╕сть ╕з погляду "середньостатистичного" користувача.

Через зростаюч╕ обсяги ╕нформац╕╖ пошуков╕ системи вже сьогодн╕ не в змоз╕ надати в розпорядження все те, що потр╕бно користувачев╕ з наявного в ╤нтернет, тому реал╕зац╕я дано╖ концепц╕╖ нав╕ть на першому етап╕ пошуку дасть йому в╕дносно невелику виб╕рку, подбавши про те, щоб вона була зм╕стовною.


Рисунок. Арх╕тектура ╕ модель функц╕онування анотовано╖ бази даних
 

Список л╕тератури

  1. Современные информационные потоки: Актуальная проблематика / Брайчевский═С.М., Ландэ Д.В. // "Научно-техническая информация", серия 1, ╧ 11. - 2005. - С. 21-33.
  2. Григорьев А.Н., Ландэ Д.В. Адаптивный интерфейс уточнения запросов к системе контент-мониторинга InfoStream//Труды Международного семинара "Диалог'2005". - 2005. - С. 109-111.
  3. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. - М.: "Вильямс", 2005. - 272 с.

P e к л а м a:
[an error occurred while processing this directive]