ПОИСКОВЫЕ СИСТЕМЫ - ФЕНОМЕН ДЕСЯТИЛЕТИЯ

Дмитрий ЛАНДЭ,
к.т.н., заместитель директора
Информационного центра "ЭЛВИСТИ"

Первые полнотекстовые информационно-поисковые системы (Fulltext Retrieval System) появились в начале компьютерной эры. Назначением этих систем был поиск в библиотечных каталогах, архивах, массивах документов, таких как, статьи, нормативные акты, рефераты, тексты брошюр, диссертаций, монографий. В начале информационно-поисковые системы (ИПС) использовались преимущественно в библиотечном деле и в системах научно-технической информации. До определенного времени полнотекстовыми ИПС пользовались лишь специалисты, круг которых был очень невелик - архивные работники, сотрудники библиотек, ученые, аналитики.

В 1966 году 16 американскими библиотеками для установления стандартного формата каталога машинного считывания была начата реализация проекта МАРК, обеспечившего переход к электронным версиям библиотечных каталогов, что способствовало эффективной организации баз данных. Внедрение стандартного библиографического формата позволило библиотекам объединить усилия в работе над электронными каталогами. В 1972 году получил международное признание стандарт МАРК-2.

В начале 1970-х годов коммерческие компьютерные службы уже предоставляли возможность интерактивного поиска в тематических базах данных Национальной медицинской библиотеки и Министерства образования США. При этом некоторые из этих служб существуют и сегодня, так разработанная в 1972 система ДИАЛОГ, позднее включенная в службу "Найт-Ридер информейшн", обеспечивает сегодня своим клиентам доступ к сотням базам данных.

Появление и развитие сети Интернет в корне изменило ситуацию. В настоящее время информационные ресурсы Сети составляют свыше десятка миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Естественно, для того, чтобы найти необходимую информацию и этой крупнейшей распределенной полнотекстовой базе данных необходимо использовать самые мощные ИПС. Такие системы существуют и конкурируют друг с другом на современном рынке информационных технологий.

В начале 1990-х годов для унификации информационных систем был разработа важный международный стандарт Z39.50 - информационно-поисковый протокол для библиографических систем. В 1994 университет Джорджии запустил пилотный проект ГАЛИЛЕЙ с использованием "Сайт-Серч" - пакета программ Огайского центра в стандарте Z39.50. Стандарт Z39.50 положен в основу службы поиска распределенной информации в Интернет - WAIS (Wide Area Information Service).

Сегодня миллионнам пользователей Интернет известны такие ИПС, как Altavista, Google, Alltheweb, Yahoo, каждая из которых охватывает свыше миллиарда Web-документов. Мы стали свидетелями одного из самых больших феноменов информационного общества: за 10 лет мало кому известная технология полнотекстового поиска стала повседневным инструментом миллионов пользователей. При этом далеко не все лидеры информационных технологий десятилетие назад осознали эту тенденцию.

"Недостаточные инвестиции Microsoft в технологию Интернет-поиска были непростительной ошибкой компании, но она работает над тем, чтобы наверстать упущенное. Говорят, что Microsoft успевает везде, но вот вам пример того, где мы не успели", - заявил CEO корпорации Стив Баллмер, выступая перед аудиторией менеджеров по маркетингу и представителей СМИ на пятой ежегодной конференции Microsoft по рекламе в Редмонде. Microsoft с трудом протискивается на одну из самых оживленных территорий в вебе. Она упорно старается наверстать упущенное, но пока отстает от своих главных конкурентов. При этом Баллмер заявил, что в ближайшие 12 месяцев команда разработчиков Microsoft должна предложить поисковую технологию первого поколения.

В отличие от реляционных СУБД, у систем полнотекстового поиска не существует стандартизированного языка запросов. У каждой системы этого типа существует свой способ задания критериев посика. Очень часто языки запросов поисковых систем приближены к SQL, однако каждой из них присущ ряд индивидуальных особенностей, связанных с такими моментами, как:
- интерпретация операций, зависящих от порядка расположения слов в тексте (операций контекстной близости слов и др.);
- реализация вычисления близости найденных документов запросам (релевантности) для представления результатов поиска;
- применение нестандартных функций, требующих, например, использования методов искусственного интеллекта (нахождение документов по принципу подобия, построение дайджестов из фрагментов документов и др.)

В различных полнотекстовых ИПС различаются архитектуры, структуры данных, алгоритмы их обработки, методологии организации поиска.

Характеристики ИПС: полнота и релевантность

Полнота и релевантность являются основополагающими характеристиками качества функционирования информационно-поисковых систем. Сегодня информации в Сети появляется больше, чем ее успевают проиндексировать поисковые системы. Это означает, что информационный хаос увеличивается и существующие подходы не соответствуют требованиям растущего информационного пространства. Вместе с тем, чем больше ресурсов соответствующего профиля включает база данных системы, тем выше должна быть полнота. Сегодня в области сетевых ИПС идет жесткая конкурентная борьба, связанная с этим аспектом. В 2002 году система Alltheweb неожиданно вышла на первую позицию по охвату сетевых ресурсов и, соответственно, была признана лучшей сетевой ИПС в мире, проиндексировав в своей базе данных 2.1 млрд. Web-страниц. В настоящее время лидером считается система Google (свыше 4,2 млрд. Web-страниц).

Два аспекта полноты

Понятие полноты динамической базы данных базы данных информации из Интернет тесно связано с оперативностью обновления этой информации. Сеть Интернет представляет собой своеобразный "живой организм", - в ней постоянно добавляются новые ресурсы, удаляются устаревшие, некоторые документы меняют адреса, некоторые модифицируются. Созданная однажды база данных является "слепком" состояния информационных ресурсов Сети на конкретный момент. Если база данных ИПС не будет обновляться постоянно и оперативно, присутствующие в ней ссылки на документы станут мертвыми, то есть по адресам, представленным в этих ссылках документы могут не существовать или могут быть размещены документы с совершенно другим содержанием.

Кроме того, отсутствие оперативности, обновления баз данных не позволит пользователю отслеживать последние изменения в его предметной области.

Полнота охвата ресурсов Сети - это один из двух аспектов характеристики полноты сетевой информационно-поисковой системы. Второй аспект связан с полнотой информации, предъявляемой пользователю по его запросу к ИПС. Если предположить, что по запросу пользователя Q в базе данных находятся Р (при Р ( 0) документов, соответствующих этому запросу, а предъявлено для просмотра всего N документов, то полнота ИПС определяется по формуле: П=(N/P)x100%. В случае, если П оказывается больше 100%, очевидно, что пользователю выдано минимум N-P документов, не соответствующих его запросу, т.е. нерелевантных.

Релевантность и пертинентность

Под релевантностью понимается формальное соответствие информации, выдаваемой системой, запросу. Если по запросу пользователя получено N документов, представляющих собой объединение двух множества документов: соответствующих запросу (пусть их количество - N1), и не соответствующих (их количество - N2), т.е. N = N1+N2. Тогда релевантность, как степень соответствия, определяется по формуле: Р = (N1/N)x100%, а шум - по формуле: S = (N2/N)x100% = 100% - P.

Это определение характерно для формальной релевантности, однако, на практике используется другое, неформальное понятие - пертинентность. Для пользователя пертинетность, соотношения объема полезной для него информации к общему объему полученной информации, имеет решающее значение. При этом следует учитывать, что формальный запрос к системе является предметом творческого осмысления информационной потребности и не всегда точно отражает последнюю. Неумение большинством пользователей правильно формулировать запросы и получать приемлемые объемы отклика породило в конце 20 века мнение об Интернет, как об огромной информационной свалке.

Средства повышения пертинентности в современных системах, помимо возможностей уточнения формулировки запросов, включает и весовые критерии, позволяющие ранжировать найденные документы и выдавать пользователю для просмотра наиболее весомые документы, либо вообще ограничиваться выдачей не более заданного числа наиболее весомых документов. В последнем случае, естественно, страдает полнота выдачи. Т.е. при этом полнота и релевантность являются антагонистическими характеристиками - чем выше релевантность, тем ниже полнота и наоборот. Проблеме релевантности, а особенно пертинентности уделяется большое внимание в современных системах. Так, например, служба Google реализовала алгоритмы достижения неформальной релевантности, и именно благодаря этому в свое время стала самой популярной системой в Интернет.

В 2003 году калифорнийская компания Google - создатель одноименной поисковой системы - запатентовала метод определения релевантности Web-страниц, отбираемых по запросу пользователя, сообщается на сайте CNET News.com. Это свидетельство стало для Google первым. Ранее компания подала еще три заявки с просьбой выдать патенты на методы и технологии поиска страниц по нечетко определенным запросам и на основе анализа их посещаемости.

Кроме характеристик полноты и релевантности для пользователей ИПС, большое значение имеют такие характеристики, как скорость обработки запросов, получения отклика от системы, достоверность отклика (например, оцениваемая по ее источникам), а также дополнительные сервисы - возможность нахождения документов, подобных уже имеющимся (like this), возможность подключения автоматических переводчиков и, конечно же, возможность уточнения запроса непосредственно после выполнения процедуры поиска.

Лингвистическое обеспечение информационно-поисковых систем

На всех этапах развития полнотекстовых ИПС лингвистическое обеспечение играло важную роль. Именно средства лингвистики выступают интерфейсами между естественным языком и формальными поисковыми механизмами ИПС. Лингвистическое обеспечение включает такие основные элементы:
- языки представления данных в ИПС, которые определяют архитектуру, синтаксис и семантику представления информации в базах данных ИПС;
- информационно-поисковый язык, то есть язык, на котором обращается пользователь к системе, чтобы получить интересующий его отклик. Современные информационно-поисковые языки включают булевы операторы (И, ИЛИ, НЕ) - операторы контекстной близости, средства управления приоритетами операторов и т.д.;
- естественные языки и языки разметки, на которых представлены документы-первоисточники.

Большое значение в современных полнотекстовых ИПС уделяется морфологическому анализу, т.е. автоматическим средствам обработки отдельных слов, как в текстах исходных документов, так и в запросах пользователей.

Морфологический анализ

При построении базы данных из массива документов (в случае сетевых ИПС такими документами выступают отдельные Web-страницы) формируется индекс из всех слов, входящих в эти документы, иногда за исключением так называемой "незначащей лексики" - предлогов, артиклей, частиц и т. д.

Файл незначащей лексики представляет собой стоп-словарь системы. Построенный словарный индекс системы во многих реализациях ИПС лемматизируется, т.е. все слова приводятся к каноническим формам, например, существительные - к именительному падежу, глаголы - к инфинитивной форме и т.д. Это особенно характерно для славянских языков, для которых в отличие, например, от английского, достаточно много словоизменений. Построение индекса системы на основе лемматизированной лексики во многих случаях оправдан, но в системах, ориентированных на профессиональную работу, ориентация только на такой подход является спорным вопросом. В системах, работающих с учетом морфологии, лемматизации должны подвергаться и запросы пользователей, т.е., если в исходном документе присутствует словосочетание "белые ночи", то в индексе системы в этом случае присутствуют слова "белый" и "ночь". Если бы запрос пользователя "белые и ночи" был передан на вход поискового механизма без преобразования, то исходный документ не был бы найден, однако, если данный запрос подвергнуть лемматизации, то он примет следующий вид: "белый и ночь" и исходный документ будет найден.

Для систем, рассчитанных на непрофессионалов (а таких большинство), лемматизация поискового индекса и запроса очень удобна, например, задав слово "конфета", пользователь получит ссылки даже на те документы, в которых слово "конфета" не присутствует в канонической форме, а присутствуют слова "конфеты", "конфетами", "конфет". Более того, представленное в запросе слово "люди", обеспечит поиск и по слову "человек".

Однако для профессионального поиска лемматизация не всегда пригодна, так как она может лишить поиск гибкости. Например, при поиске документов, в которых должна была присутствовать фамилия "Тарасюк", использовалась одна из систем со встроенными возможностями морфологического анализа. В результате отработки соответствующего запроса было найдено 32 документа, среди которых 31 документ относился к творчеству Тараса Шевченко и к мероприятию на Тарасовой горе, и лишь один документ оказался релевантным.

Т.е. на практике лемматизация далеко не всегда увеличивает число пертинентных документов. Недаром, например, такая служба как AltaVista вообще не занимается морфологической обработкой текста. Все слова для нее - лишь последовательности символов.

Тезаурус

Еще при появлении первых ИПС возникла дискуссия, предметом которой стало использование в качестве индексов систем автоматически формируемых словарей или подключение заранее подготовленных словарных массивов, снабженных рядом дополнительных атрибутов - тезаурусов.

В тезаурусах каждой лексической единице приписывается небольшой пояснительный текст - словарная статья и ссылки на другие слова этого словарного массива. Содержательно ссылки могут означать следующее: синонимию, противопоставление отдельных слов, подчиненность и т.д. Структура наполнения тезауруса регламентируется соответствующими стандартами - ISO 2788, ГОСТ 7.25-80 (для одноязычных тезаурусов) и ГОСТ 7.24-90 (для многоязычных тезаурусов).

Формирование поискового индекса во многих ИПС выполняется по правилам построения тезаурусов, в которые были включены такие типы лексических единиц:
* отдельные слова (существительные, прилагательные, глаголы, наречия);
* словосочетания;
* лексически весомые компоненты сложных слов;
* аббревиатуры;
* сокращения слов и словосочетаний.

В тезаурусах различные формы лексических единиц приводятся к каноническим формам. Кроме того, лексическим единицам приписыватются указатели, которые соответствуют стандарту ISO 2788. В соответствии с этим стандартом определяются такие основные виды ссылок:
* смотри USE
* синоним UF (used for)
* выше BT (broader term)
* ниже NT (narrower term)
* ассоциация RT (related term)

При формировании поискового индекса системы на основе тезауруса каждое слово из документов, входящих в базу данных ИПС анализируется на вхождение в тезаурус. Особый смысл имеет использование тематических тезаурусов для специализированных баз данных, однако сегодня остается открытым вопрос построения политематического тезауруса и индекса ИПС на его основе. Хотя следует отметить, что при формировании баз данных на основе Web-сайтов Интернет именно политематический тезаурус представляет самый большой интерес.

Другой подход, который чаще всего используется сегодня, основан на механизмах автоматического построения поискового индекса системы на основе входящих в документальный массив слов. Этот подход предполагает отказ от использования тезауруса или, по крайней мере, лишь минимальное его использование для второстепенных целей. В настоящее время этот подход считается более технологичным.

В самом начале истории ИПС противники использования тезаурусов приводили как один из основных аргументов то, что объемы тезаурусов не позволяют хранить их в памяти машины. В те времена объемы текстовых баз данных были относительно небольшими и автоматические индексы систем были на порядок менее объемными, чем соответствующие тезаурусы. Сегодня ситуация изменилась в корне - с одной стороны объемы промышленных носителей информации позволяют хранить практически неограниченное количество тезаурусов, а с другой стороны, объемы текстовых баз данных настолько велики, что их индексы зачастую превышают объемы тезаурусов. Все это дает основание предполагать, что соотношение тезаурусных и бестезаурусных систем, сложившееся в результате инертности внедрения новых технологий, в недалеком будущем изменится.

Элементы контент-анализа в современных ИПС

В последнее время в технологии ИПС все чаще стали внедряться элементы контекст-анализа, методологии возникших в конце XIX - начале ХХ вв. Эта методология, изначально ориентированная на применение в психологии и социологии, сегодня все чаще используется в разного типа автоматизированных системах. Различают количественный и качественный контент-анализ. Если качественный контент-анализ базируется на глубоком лингвистическом и семантическом анализе отдельных предложений и всего текста, то основой количественного контент-анализа являются статистические весовые подходы. В последнее время получили развитие такие направления контент-анализа, как "Data Mining" и "Text Mining", которые предполагают автоматическое выявление нового смысла из текстовых массивов, новых данных, феноменов, фактов - знаний. Все чаще возникают попытки привлечения методов контент-анализа, а точнее Text Mining в реальные поисковые системы. И эти попытки не умозрительны - они обусловлены объемами и темпами роста Сети. Во многие современные сетевые ИПС внедрены такие компоненты, как:
* автоматическая группировка документов, по определенному заранее классификатору;
* автоматическое определение новых, не заданных заранее классов, на основе неструктурированных или слабо структурированных документов;
* ранжирование документов по смысловой релевантности;
* выявление семантически подобных документов - поиск подобных документов на основе эталона;
* автоматический анализ и смысловое преобразование запросов пользователей.

В свое время создатели службы Oingo реализовали технологию выявления "смысла" слов путем построения обучаемой внутренней семантической сети. Сегодня наиболее интересной кажется технология, предлагаемая службой AltaVista (http://www.av.com/), обеспечивающая для реализации режима уточнения поиска (Refine Your Search) автоматическое определение классов, и последующую группировку откликов ИПС в соответствии ними. Например, в результате отработки запроса "network" (сеть) она предлагает следующие классы документов: Management; Solution; Catholic Church; Christian Organization; Domain Names; Blog; Economy; Moving; Project. В этой системе, как и в большинстве остальных, активизация соответствующего класса приводит к уточнению первоначального запроса.

Большинство же из современных интеллектуальных систем обеспечивает группировку своих откликов по заранее определенным классификаторам. Так система Vivisimo (http://www.vivisimo.com/) определила для запроса "network" такие классы: Solutions; Information Network; Security; Games; Organization; Computing; Project. Служба Lycos в режиме "Narrow Your Search" при этом определила такие классы: Carton Network; Dish Network; Food Network; Network Marketing; Home Shopping Network; Network Security. А система Google по этому же запросу выдала всего два класса: "Computers>Consultants>Network" и "Computers>Software>Operation System>Network".

Немного о методологии поиска

Целью любой ИПС является предоставление пользователю возможности поиска информации по необходимой ему тематике, выраженной специальными запросами. Различные ИПС имеют собственные языки запросов или, как их еще называют, информационно-поисковые языки (ИПЯ), позволяющие в той или иной мере описывать предметные области. При этом процесс составления запросов допускает многовариантность и является своего рода искусством. Кроме того, процедура поиска имеет вполне определенную этапность - от определения информационной потребности и области поиска - до анализа результатов и выбора пертинентных объектов.

Приведем аналогию, которая относится к шахматному искусству. Начало шахматной партии - дебют, обеспечивает развитие фигур на доске и определяет стратегическую канву будущей партии. Несмотря на то, что шахматы допускают миллиарды последовательностей ходов, количество дебютов, на самом деле, ограничено несколькими сотнями. Точно также как и в шахматном искусстве, в искусстве поиска можно определить первый этап - дебют. На этой фазе определяется цель поиска, его стратегия и область проведения (поисковые серверы, каталоги, тематические порталы).

Вторым этапом в шахматах является миттельшпиль. При хорошо разыгранном дебюте и определенной стратегической направленности партии, наибольшее значение на этом этапе уделяется многовариантному анализу и тактическим решениям. В этом случае шахматист просчитывает в уме несколько десятков вариантов (из миллионов возможных). Лишние, неэффективные варианты он просто не рассматривает, руководствуясь логическими образами, заложенными на уровне подсознания.

Точно также вторая, оперативная часть поисковой процедуры предполагает многовариантность подходов и решений при формализации запросов в процессе их отработки. В этом случае также аналитик приходит к необходимости использования весьма ограниченного числа поисковых серверов, каталогов и отдельных web-ресурсов для решения своей задачи.

Основной задачей второго этапа является формирование эффективных запросов к ИПС. Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой ИПЯ, несмотря на то, что у различных языков этого типа много общего, например набор булевых операций.

Последняя часть шахматной партии - эндшпиль заключается в поиске решений при очень ограниченном количестве ресурсов (фигур). В этом случае количество вариантов, как правило, значительно более скромное, чем на втором этапе и их правильный выбор определяет результат всей партии.

Точно также третий этап поиска в Сети является определяющим, от его реализации зависит, будет ли найдено решение пертинентным. На этом этапе пользователь работает с конечными документами, полученными в виде списков релевантных документов. От правильного выбора набора документов-первоисточников зависит результат работы всех трех этапов поисковой процедуры.

Полученные в результате обработки запросов отклики ИПС требуют, с одной стороны, скурпулезной аналитической работы, и, с другой стороны, развитых средств автоматизации аналитической работы, обеспечивающих:
* итеративное уточнение запросов;
* поиск по подобию;
* ранжирование выдаваемых документов;
* построение графических отчетов, визуализацию.

Как видим, процесс поиска в Интернет имеет много общего с поиском решений в житейском понимании, только на более высоком уровне виртуализации. Как и любой поиск, поиск в Интернет является искусством и ему, как и многим видам искусства присуща многовариантность.

Механизм уточнения запросов

Создается впечатление, что при поиске очень редкого слова любая ИПС дает хороший результат. Действительно, если слово или словосочетание редкое, то документов выдается, как правило, немного, они все быстро просматриваются без особых затрат на аналитическую работу. Правда, все усложняется, если система не находит ни одного документа. В этом случае следует обратиться к другим системам или изменить критерии поиска.

В свое время Google затеяла сетевую игру, смысл которой состоит в том, что игроки называют словосочетания из двух осмысленных слов, которые встречаются в Интернет точно один раз. Тысячи энтузиастов принялись отыскивать такие словосочетания. Как только словосочетание "срабатывало", человек объявлялся победителем на текущий момент, и его имя публиковалось на сайте вместе со словосочетанием. В результате это словосочетание встречалось в Сети уже два раза - один раз в оригинале и второй раз в таблице победителей.

Иное дело, когда на, казалось бы, логично сформулированный вопрос, выдаются тысячи документов, имеющие слабое отношение к информационным потребностям. В этом случае рекомендуется применить два метода: первый - кардинальный - полностью переформулировать запрос, изменив представление о возможном поисковом образе, второй - уточнить запрос с помощью добавления еще одного условия с применением операции конъюнкции (оператора И). Второй путь реализуется в большинстве систем опцией "искать в найденном". В этом случае, не изменяя логики предыдущего запроса, а лишь уточняя его можно добиться удовлетворительных результатов, например, если словосочетанию "стол деревянный" соответствует 500 откликов, то уточнение "обеденный" приведет к двум десяткам документов.

Поиск по подобию

Допустим, в результате поиска по запросу найдено избыточне количество документов, но при просмотре первых страниц результатов поиска найдено несколько пертинентных документов. Естественно, возникает желание найти еще документы (или ссылки на них), сходные с ними по содержанию, не затрачивая интеллектуальных усилий на анализ и составление запроса.

Идя на поводу подобных желаний, многие ИПС реализовали опции "найти подобное", "похожие документы", "like this". Не всегда этот режим ведет к получению удовлетворительных результатов при целевом поиске, однако, иногда приводит к получению полезных документов, имеющих косвенное отношение к теме первичного запроса.

Ранжирование выдачи документов

Ранжирование выдаваемых документов, в отличие от предыдущей опции имеет большое значение в работе современных ИПС. Ранжирование может выполняться по дате создания/обновления документа, по степени важности (многие системы оценивают важность документов по весовым критериям или по количеству ссылок на них, т.е. по цитированию). Ранжирование по дате имеет особое значение при поиске новостных сообщений средств массовой информации и информационных агентств.

Ранжирование по индексу цитируемости, аналогичное оценке значимости научных публикаций в традиционной научной среде впервые ввела Google, продемонстрировавшая эффективность такого подхода для Web-пространства.

23 марта 2004 года сайт "Яндекс" (http://www.yandex.ru/) существенно изменил правила ранжирования выдачи. По информации компании, "новый алгоритм учитывает социальную структуру интернета". Он "умеет отличать мнение людей от технической,вспомогательной и рекламной информации", то есть позволяет лучше распознавать, какой ресурс является авторитетным в своей области.

Ранее "Яндекс" при расчете индекса цитирования сайтарассчитывал количество и "вес" ссылок, которые ведут на этот сайт. При этом учитывался рейтинг того сайта, на котором находится ссылка. Если сайт находился в той же тематической категории из каталога-рубрикатора, то вес ссылки еще больше увеличивался. При обработке поискового запроса система выдавала в первую очередь страницы с сайтов, которые имеют больший тематический индекс цитирования.

В настоящее время при ранжировании результатов поиска теперь кардинальным образом уменьшено влияние каталога. Роль "бонуса" за тематическую категорию уменьшена, а роль "авторитетности" ссылающегося сайта, даже если он находится в другой тематической категории каталога, увеличена.

Не менее существенными являются и дополнительные сервисы, которые открыл "Яндекс". Введена дополнительная очистка результатов поиска от дубликатов. Теперь пользователь избавлен от повторения в списке найденного почти одинаковой информации.

Стало удобнее работать с региональной информацией. "Яндекс" автоматически определяет, в каком городе находится компьютер, с которого поступил запрос, и, если уточнение по региону имеет смысл, предлагает повторить поиск, ограничив его сайтами данного региона. Поиск теперь поддерживает шесть языков: к русскому и английскому добавились украинский, белорусский, французский и немецкий. Язык документов и сайтов определяется автоматически, а ограничить область поиска нужным языком можно в настройках или расширенном поиске.

Охват поисковыми системами информационных ресурсов

Безусловно, для обеспечения полноты поиска, необходимо знать степень охвата информационных ресурсов Интернет поисковыми системами. Сегодня ведущими по охвату информационных ресурсов Интернет являются поисковые системы Google и Alltheweb. Вместе с тем, даже эти системы охватывают всего лишь третью часть существующих Web-страниц. Количество поисковых серверов, охватывающих Интернет, а не отдельные его части, ограничено несколькими десятками, лидерами в которых являются такие, как:
- http://www.google.com
- http://www.alltheweb.com
- http://www.altavista.com
- http://www.yahoo.com
- http://www.msn.com
- http://www.aol.com
- http://www.lycos.com

Среди российских поисковых серверов особого внимания заслуживают три - это Яндекс (http://www.yandex.ru), Рамблер (http://www.rambler.ru) и Апорт (http://www.aport.ru). В Украине две лидирующих поисковых системы - МЕТА (http://meta.ua/) - по стабильной части украинского сегмента Сети и UAport (http://uaport.net/) - по новостной части.

В 2003 г. Google завоевал звание "Брэнд Года" второй раз подряд. Google со своим минималистским интерфейсом и скромным количеством рекламы в поисковой выборке стал поистине любимцем пользователей по всему миру. Компания предоставляет веб-серферам поиск на 97 языках, в том числе на несуществующем языке "клингон" из космической саги "Звездный путь".

Орпос более 4000 пользователей Сети показал, что Google любят за то, что у него "чистый, дружественный и одновременно очень релевантный поиск". "Брэнд-менеджерам Google необходимо держаться выбранной стратегии. И тогда в самом ближайшем времени Google может стать на уровень Apple, лояльность пользователей которого доходит до фанатизма", - считают эксперты Interbrand.

В горячую десятку мировых брэндов, кроме Google входят Apple; Mini; Coca-Cola; Samsung; Ikea; Nokia; Nike; Sony; Starbucks.

Редакция газеты Washington Post также назвала сервис Google одним из 10 важнейших Интернет-достижений 2003 года.

Казалось бы, современные ИПС должны обеспечить гарантированное нахождение информации, однако "ленивые" пользователи все же, в большинстве своем, не довольны качеством их работы. Основная масса пользователей не хочет прикладывать особых интеллектуальных усилий при формировании критериев поиска. Удивительно низким оказывается процент использования запросов, усложненных хотя бы одним логическим или контекстным оператором. Около 80 % запросов состоят из одного или двух слов. Если и используются операторы, то это в основном булевы AND и OR. Доля использования операторов контекстной близости и логического отрицания (NOT) не превышает 1-2%. В то же время, реализация отработки сложных запросов (которых пока не более 20%) и определяет профессионализм поисковой процедуры, влияет на эффективность использования времени, проводимого пользователем в Интернет.

Остановимся подробней на общих чертах и особенностях формирования запросов к поисковым системам.

Поиск по словам, усечениям и словоформам

Все поисковые системы обеспечивают поиск хотя бы по одному слову. Средства навигации в Интернет, не обеспечивающие такого поиска, называются иначе - каталогами, коллекциями ссылок и т.п.

Иначе дело обстоит с усечениями слов. Некоторые системы рассматривают все слова запроса как правые усечения. У других известных систем возможность поиска по усечениям попросту не реализована (Google, Alltheweb, Рамблер). Однако в большинстве систем, для маскирования правого усечения слова достаточно поставить символ "*" (AltaVista, Яндекс).

Некоторые системы не чувствительны к регистрам букв в словах запросов. К таким системам относится Alltheweb, Google и UAport. При этом система UAport не делает различий даже между латинскими и кириллическими буквами одинакового написания, что в некоторых случаях упрощает ввод запросов. Однако, в большинстве приведенных выше систем "чувствительность" к регистрам включается при употреблении хотя бы одной прописной буквы в слове запроса.

Поиск по словоформам является результатом серьезного лингвистического анализа и реализован в русскоязычных системах Апорт, Яndex и Рамблер, а также в укранской системе META. К примеру, в системе Апорт независимо от того, в какой грамматической форме указано слово в запросе, оно находится в базе данных во всех своих формах. В этой системе запрос "ребенок шел" эквивалентно запросу "дети идут".

В системах Яndex и Rambler если слово участвует в запросе, то учитываются также все его формы. Для поиска по конкретному слову, а не всем словоформам, перед ним ставиться сисмвол "!" (Яndex) или оно берется в кавычки (Рамблер).

Портал Рамблер встроил лингвистическую поддержку украинского языка в свою поисковую машину, в результате, пользователям стали в полной мере доступны интернет-ресурсы на украинском языке. Если раньше запросы на украинском языке Рамблер понимал буквально, то сейчас он способен осуществлять морфологический анализ запросов, определять грамматическую форму слова и выдавать корректную выдачу.

Поисковая машина Рамблер распознает язык поискового запроса, и формирует адекватную выдачу. Например, для запроса "поисковая система" основным языком является русский, так что документы, содержащие формы соответствующего украинского слова ("системi" и "системою") в процессе поиска рассматриваться не будут. По запросу же "пошукова система", наоборот, не будут учитываться документы, содержащие слова "системы" и "системе". Предполагается, что при поиске по запросу на украинском языке преимущество будут получать сайты, популярные среди украинских пользователей Интернета.

Поиск по фрагментам текста (строгим словосочетаниям)

Большинство из названных систем способно реализовывать контекстный поиск заключенной в кавычки фразы (Google, Alltheweb, AltaVista, Lycos и др.). Такая способность - это реализация неявно указанных с помощью кавычек операторов контекстной близости.

Использование логических операторов

Для ввода сложных запросов требуется использование булевых и контекстных операторов, скобок, указание полей и т.п. Хотя для большинства случаев (70 % запросов по статистике состоят из одного слова) этого не требуется. Поэтому поисковые службы обычно создают два интерфейса - простой (по умолчанию) и расширенный (называемый в разных системах детальным, мощным или профессиональным). Но есть и такие системы, которые с помощью одного и того же механизма позволяют вводить, а затем обрабатывают простые и сложные запросы, обеспечивая пользователей руководствами различного уровня сложности.

Во всех современных системах реализованы булевы операторы AND, OR и NOT, а также работа со скобками. Однако в двух из них - AltaVista и Excite оператор NOT записывается в виде "AND NOT", - таким образом подчеркивается его бинарность (в математической логике оператор NOT в чистом виде - унарный). В режимах простого поиска булевы операторы реализуются не всегда указанием их в явном виде. Например, во многих поисковх системах пробел между словами запроса по умолчанию воспринимается как оператор AND (Allthenews, Google, META и UAport). В то же время при указании опций типа "any of the words", пробел в таких системах воспринимается как OR. Кроме тог, в Alltheweb допускается использование операторов "+" и "-" перед словами фактически как синонимов операторов AND и NOT, соответственно. Точно так же используются эти операторы в AltaVista, Excite, Lycos и Апорт. Можно отметить, что у самой популярной сегодня системы Google - самый лаконичный набор логических операторов - "+", OR и "-".

Использование операторов контекстной близости

Большинство профессиональных поисковых систем обеспечивает выполнение операций контекстной близости, одна из реализаций которой - поиск выражений в кавычках.

Например, в системе Google реализована только возможность поиска по фразам в кавычках, в AltaVista реализован оператор NEAR (~), обеспечивающий находжение документов, у которых два слова находятся на расстоянии не более 10 слов. В системе Lycos функции контекстной близости получили наибольшее развитие и реализованы с помощью четырех операторов: ADJ, NEAR, FAR и BEFORE. ADJ обеспечивает близость двух слов в тексте в любом порядке; NEAR позволяет находить документы, в которых слова-операнды удалены не более, чем на 25 слов; FAR - оператор противоположный по смыслу оператору NEAR, т.е. исключает близость терминов запроса в пределах 25 слов текста документа; BEFORE похож на оператор ADJ, только с учетом порядка встречаемости терминов в тексте. Оригинально решен вопрос контекстной близости в системе Рамблер. Значение ограничения контекста в этой системе можно изменять конструкцией "(число, запрос)", где число - любое положительное число, запрос - любой корректный запрос, состоящий более чем из одного слова. Таким образом, по запросу "(2, красная роза)" найдутся только те документы, в которых между словами "красная" и "роза" хотя бы раз не стоит ни одного слова. В системе Яndex режим контекстного поиска называется "поиском с расстоянием". В общем виде ограничение по расстоянию задается выражением вида "/(n m)", где n - минимальное, а m - максимальное допустимое расстояние. В системе Апорт существует два вида ограничения по расстоянию: в словах "wN(...)", где N - число слов и в предложениях "sN(...)", где N - число предложений. В этой же системе интеллектуальной обработке подвергаются выражения в кавычках. Например, запрос "яблоки на снегу" эквивалентен запросам "яблоки и снег", "яблоки под снегом", "яблоко снег".

Поиск по параметрам

Отдельного рассмотрения заслуживает возможность поиска по параметрам документов, которая зачастую позволяет ограничивать диапазон поиска значениями URL, датам, заглавий и т.п. Чаще всего выйти на возможность поиска по параметрам можно из режима расширенного поиска. В режиме расширенного поиска для ввода значений отдельных параметров предлагается весь диапазон возможностей Web-интерфейса.

Например, в системе Alltheweb в за просах можно указать параметры, обеспечивающие поиск по таким параметрам: URL (например, по запросу "url:energ" будут найдены документы, в URL которых присутсвует строка "energ"), ссылки на страницы сайтов ("link:"), доменные имена (например, "site:ua" обеспечит нахождение документов из украинского домена), заголовки ("title:"). В этой системе допустим поиск, кроме всех вариантов текстовых файлов, еще трех типов файлов - PDF, Ms Word, Flash.

В системе AltaVista присутствуют все приведенные для Alltheweb возможности (параметру "site:" в AltaVista соответствует "host:"), кроме того, в режиме расширенного поиска обеспечивается поиск по датам (с явным указанием "с...- по...", либо указанием тапа "искать за последние 8 месяцев"). Этот режим в системе традиционно называется "Web-археологией".

В Google обеспечивается поиск по сайту ("site:"), определение ссылок на сайт ("admission site:"), поиск по ценам, например "DVD player $250..350", странам, датам, доменам и т.д. В поле ввода запроса можно вводить и арифметические выражения, используя интерфейс Google как калькулятор, что, конечно же, подчеркивает своеобразность данной системы (например, по запросу "4^2" будет выведен результат 16).

Рамблер предлагает форму расширенного поиска, с помощью которой реализует поиск как по всему документу, так и по URL, названию (тег <title>), заглавиям (теги <h1>, <h2>, <h3>, <h4>) и др. Кроме того, Рамблер позволяет искать в пределах диапазона дат.

Яndex позволяет искать в заголовках и в текстах ссылок, а также ограничивать поиск наличием ссылок на определенную страницу, определенным сайтом, диапазоном дат. В системе Яndex обеспечивается поиск по данным в форматах HTML, PDF, RTF, Ms Word.

Апорт обеспечивает поиск по URL ("url="), датам ("date=[дата]" или "date:[диапазон дат]", заголовкам ("title="), ключевым словам ("keywords="), подписям к изображениям ("alt="), ссылкам ("link="), комментариям ("comment="), текстам ("text=").

Поиск подобных документов

Одной из возможностей современных систем - обеспечения нахождения документов, подобных уже найденным. Что означает "похожий документ", по каким критериям это определяется зачастую остается загадкой для пользователя. Один из подходов к ее решению может быть таким: каждое значимое по мнению системы слово ранжируется по какому-то критерию, из наиболее весомых слов автоматически формируется запрос, рассматриваемый как новый критерий поиска. Такой режим реализован во многих современных ИПС, например, на серверах Excite, Google и Яndex, а также в традиционных системах, использующих весовой критерий релевантности.

По информации The Wall Street Journal, старейший из работающих ныне поисковых каталогов приготовил своему главному конкуренту компании Google "тройной удар":

Во-первых, Yahoo! намерен через запустить собственную систему поиска по своему необъятному каталогу. В марте 2004 года компания Yahoo!, владеющая популярным поисковым каталогом, отказалась от использования на своем портале поисковой технологии Google, заменив ее собственной разработкой - search.yahoo.com. Новая система базируется на технологии Inktomi и двух других поисковых механизмах, приобретенных Yahoo. В отличие от системы Google данная служба использует не только автоматическую индексацию ресурсов, но и результаты "ручной" работы команды редакторов.

Во-вторых, Yahoo! намерен усиливать "персонификацию и гибкость" своих услуг, то есть предоставлять постоянным зарегистрированным посетителям все более и более "индивидуальный" подход. Новая поисковая система Yahoo предусматривает персонализацию пользовательских настроек с целью повысить релевантность поиска для каждого клиента. Для учета пользовательских предпочтений задействована база данных Yahoo, в которой содержатся сведения, сообщенные пользователями различных служб компании. Эта база насчитывает более 100 млн записей.

И в третьих, Yahoo! намерен наращивать количество "спонсированных ссылок", то есть тех результатов поиска, которые будут зависеть не от релевантности, а появляться "в первом экране" за деньги.

Yahoo! вложила два миллиарда долларов в закупку новых технологий, которые, как надеется руководство Yahoo!, поможет не только догнать вырвавшегося вперед опасного конкурнета, но и намного обогнать его.

Несколько рекомендаций в заключение


1. Начинайте поиск с наиболее известных и мощных поисковых серверов.
2. Используйте специализированные видовые, тематические или региональные поисковые серверы, если они Вам известны.
3. Внимательно прочтите инструкцию (help, FAQ) по выбранной поисковой системе.
4. Выделяйте ключевые слова для поиска, наиболее точно отражающие интересующую Вас проблематику.
5. Начинайте поиск с простых запросов в режимах простого поиска. По мере получения результатов расширяйте или уточняйте запросы с помощью дополнительных возможностей - используя логические и контекстные операторы, поиск по параметрам, переходя в режим расширенного поиска.
6. Используйте поиск по параметрам, чаще всего предлагаемый в режимах расширенного поиска - это обеспечит фильтрацию документов по форматам, датам, размерам, странам, языкам и т.д.
7. Если Вас интересует достаточно широкий спектр информации, имеющей отношение к первичному запросу (например, при составлении обзора), смело используйте режим "поиск подобных документов".
8. В случае наличия средств ранжирования выдачи по релевантности обязательно используйте их. Это позволит Вам достаточно быстро оценить результаты поиска в случаях, когда общие объемы выдачи могут превышать все разумные рамки.

© D.Lande,
Статья в редакции CHIP Ukraine 05'2004 выглядит совсем иначе :(


P e к л а м a: [an error occurred while processing this directive]