Найти и не утонуть

Поиск необходимых данных в Сети все более усложняется из-за лавинообразного роста количества информации. CHIP@net рассказывает об особенностях различных поисковых систем и о том, как оптимально организовать работу с их помощью.

По опубликованным два года назад результатам исследования компании Netcraft, количество серверов в Интернет на то время составляло 1 млн. В соответствии с данными NUA Internet Surveys, в настоящее время их насчитывается уже около 5 млн. Количество веб-страниц на них превышает 600 млн.

Возникает вопрос, как конкретному пользователю выбрать необходимые ему данные в Сети и не "захлебнуться" в этом океане информации, получив богатый "улов"? Существует несколько подходов, соответствующих возможной тактике пользователя.

Первый из них можно условно назвать "серфингом". Зацепившись за одну из веб-страниц, адрес которой пользователю был известен изначально, он проходит по ссылкам с этой страницы на любую глубину, пытаясь удовлетворить свои информационные потребности. Вариант достаточно распространенный, однако его вряд ли можно считать оптимальным во всех случаях.

Второй подход принято называть "браузингом". Это расширение серфинга, в том смысле, что пользователь в качестве стартовой страницы использует Интернет-каталог, т. е. один из веб-серверов, на котором представлена классификация сетевых ресурсов и с которого реализованы гипертекстовые ссылки. Сегодня существуют сотни общепризнанных каталогов, самым известным из которых является Yahoo! (http://www.yahoo.com).

Третий подход состоит в использовании сетевых информационно-поисковых систем. В этом случае пользователь может самостоятельно с клавиатуры своего компьютера вводить запросы, анализировать результаты поиска, осуществлять переходы к необходимым ресурсам. Именно третий подход, т. е. выявление необходимых сведений в Интернет с помощью специальных поисковых средств, является наиболее предпочтительным для нахождения данных в Сети.

В прошлогоднем номере журнала Science была опубликована статья, основанная на результатах исследования работы нескольких веб-узлов √ поисковых систем. Авторы статьи пришли к выводу, что использовав одну систему, можно найти не больше одной трети размещенных в WWW документов. На момент исследования общее число веб-сайтов составляло еще около 320 млн. Здесь же приведена экспертная оценка охвата веб-пространства наиболее крупными поисковыми серверами.

Лидером в этом направлении признан HotBot, в базе которого представлено свыше трети (34 %) существующих ресурсов сети. Число всемирных поисковых серверов, заслуживающих внимания, ограничено несколькими десятками, безусловными лидерами в которых являются системы, приведенные в таблице. Можно утверждать, что названные пропорции не изменились.

Охват веб-пространства крупными поисковыми серверами

Сервер URL Охват веб-ресурсов

HotBot http://www.hotbot.com 34 %

AltaVista http://www.av.com 28 %

Northern Light http://www.nlsearch.com 20 %

Excite http://www.excite.com 14 %

Infoseek http://www.infoseek.com 10 %

Lycos http://www.lycos.com 5 %

Существует несколько информационно-поисковых серверов, охватывающих большую часть русскоязычного ресурса. Это такие серверы, как Яndex (http://www.yandex.ru) - 32 тыс. сайтов, Апорт (http://www.aport.ru) - 26 тыс. сайтов и Rambler (http://www.rambler.ru) - 15 тыс. сайтов. Среди украинских информационно-поисковых серверов самые рейтинговые √ InfoReS (http://el.visti.net) и МЕТА (http://meta-ukraine.com), охватывающие практически все 4-5 тыс. украинских сайтов.

Каковы же особенности поиска информации в различных системах?

Статистика запросов

При анализе запросов, поступивших на ряд сетевых информационно-поисковых систем (среди которых Rambler, Апорт и InfoReS), выявлены интересные закономерности, относящиеся к составу наиболее часто запрашиваемых слов и использованию возможностей расширенного поиска. В соответствии с информационными потребностями пользователей, выраженными в терминах запросов, становится понятной популярность определенных тематических сайтов. В результате анализа кажутся обреченными на успех проекты, связанные с созданием сетевых служб трудоустройства, знакомств, новостийных, законодательных, образовательных, финансовых серверов.

Удивительно низким оказывается процент использования запросов, усложненных хотя бы одним логическим или контекстным оператором. Свыше 75 % запросов состоят из одного слова. Если и используются операторы, то это в основном булевы AND и OR. Доля использования операторов контекстной близости и логического отрицания (NOT) не превышает 1-2 %. В то же время, реализация отработки сложных запросов (которых пока не более 25 %) и определяет профессионализм поискового механизма, влияет на эффективность использования времени, проводимого пользователем в Интернет.

Поиск по словам

Все профессиональные сетевые информационно-поисковые системы обеспечивают выполнение основных логических и контекстных операторов, однако каждой из систем характерны особенности, которые, как правило, отражены в инструкциях по поиску. Ниже приведены основные функциональные возможности современных поисковых систем и отражены нюансы отдельных реализаций.

Все поисковые системы обеспечивают поиск хотя бы по одному слову. Средства навигации в Интернет, не обеспечивающие такого поиска, называются каталогами, коллекциями ссылок и т. п.

Поиск по словоформам: в системе Яndex, если слово участвует в запросе, то учитываются также все его формы по правилам русского языка

Иначе дело обстоит с поиском по усечениям слов. Например, InfoSeek и InfoReS рассматривают все слова запроса как правые усечения. В некоторых известных системах возможность поиска по усечениям просто не реализована (Excite, Lycos). Но в большинстве систем для маскирования правого усечения слова достаточно поставить символ "*" (AltaVista, Northern Light, Rambler).

Дальше всех в этом отношении пошла система Northern Light, обеспечивающая маскирование не только правых частей слов в запросах √ символ "*" можно устанавливать в любой части слова запроса. В системе допустимо даже маскирование одной буквы слова запроса. Для этого используется символ "%", который также может устанавливаться в любой части слова запроса.

Некоторые системы не чувствительны к регистрам букв в словах запросов. К таким системам относятся Northern Light и InfoReS. При этом система InfoReS не различает между собой даже латинские и кириллические буквы одинакового написания, что в некоторых случаях упрощает ввод запросов. Однако в большинстве приведенных выше систем "чувствительность" к регистрам включается при употреблении хотя бы одной прописной буквы в слове запроса.

Поиск по словоформам является результатом серьезного лингвистического анализа и реализован в двух русскоязычных системах √ Апорт и Яndex. В системе Апорт независимо от того, в какой грамматической форме указано слово в запросе, оно находится в базе данных во всех своих формах. В этой системе запрос "ребенок шел" эквивалентен запросу "дети идут". В системе Яndex, если слово участвует в запросе, то учитываются также все его формы по правилам русского языка. Для поиска по конкретному слову, а не всем словоформам, перед ним ставится символ "!".

Многие системы способны реализовывать контекстный поиск заключенной в кавычки фразы, то есть по фрагментам текста (строгим словосочетаниям). Такая способность √ это реализация неявно указанных с помощью кавычек операторов контекстной близости (HotBot, Northern Light, AltaVista, Lycos, InfoSeek и др.).

Использование логических операторов

Для ввода запросов со сложной логикой, как правило, требуется использование булевых и контекстных операторов, скобок, указание полей и т. п. Для большинства случаев (75 %, как было уже сказано) этого не требуется. Поэтому некоторые поисковые службы создали по два поисковых интерфейса √ простой (по умолчанию) и расширенный (называемый в разных системах детальным, мощным или профессиональным). По такому пути пошли AltaVista, Lycos, InfoSeek, Excite, Rambler.

В свою очередь, другие системы позволяют с помощью одного и того же механизма вводить простые и сложные запросы, обеспечивая пользователей руководствами различного уровня сложности. По этому пути пошли HotBot, Northern Light, Яndex.

Во всех рассматриваемых системах реализованы булевы операторы AND, OR и NOT, а также работа со скобками. Однако в двух из них √ AltaVista и Excite √ оператор NOT записывается в виде "AND NOT", - таким образом подчеркивается его бинарность (в математической логике оператор NOT в чистом виде √ унарный, и не может относится к двум операндам).

В режимах простого поиска булевы операторы реализуются не всегда указанием их в явном виде. Например, система HotBot воспринимает по умолчанию пробел между словами запроса как оператор AND. В то же время при указании на экране поиска опции "any of the words" пробел в этой системе воспринимается как OR. В системах Апорт и InfoReS пробел также воспринимается как AND. Кроме того, в системе Апорт допускается использование операторов "+" и "-" перед словами, фактически как синонимов операторов AND и NOT соответственно. Точно так же используются эти операторы в AltaVista, Excite и Lycos. В системе Rambler использование символов "+" и "-" имеет иной смысл: они используются для увеличения и уменьшения весового значения слов.

Операторы контекстной близости

Большинство профессиональных поисковых систем обеспечивают выполнение операций контекстной близости, одна из реализаций которой √ поиск выражений в кавычках (см. выше).

Например, в системе HotBot реализована только возможность поиска по фразам в кавычках, в AltaVista реализован оператор NEAR (~), обеспечивающий нахождение документов, у которых два слова находятся на расстоянии не более 10 слов.

В системе Lycos функции контекстной близости получили наибольшее развитие и реализованы с помощью четырех операторов: ADJ, NEAR, FAR и BEFOR. ADJ обеспечивает близость двух слов в тексте в любом порядке; NEAR позволяет находить документы, в которых слова-операнды удалены не более чем на 25 слов; FAR √ оператор, противоположный по смыслу оператору NEAR, т. е. исключает близость терминов запроса в пределах 25 слов текста документа; BEFOR похож на оператор ADJ, только с учетом порядка встречаемости терминов в тексте.

Оригинально решен вопрос контекстной близости в системе Rambler. При желании минимизировать расстояние между поисковыми терминами используется служебное слово "$near", за которым следуют два операнда √ значения самих слов.

В системе Яndex режим контекстного поиска называется "поиском с расстоянием". В общем виде ограничение по расстоянию задается выражением вида "/n m", где n √ минимальное, а m √ максимальное допустимое расстояние.

В системе Апорт существует два вида ограничения по расстоянию в словах "wN(┘)", где N √ число слов, и в предложениях "sN(┘)", где N √ число предложений. В этой же системе интеллектуальной обработке подвергаются выражения в кавычках. Например, запрос "яблоки на снегу" эквивалентен запросам "яблоки и снег", "яблоки под снегом", "яблоко снег".

Расширенный и простой поиск: первый используется для ввода запросов со сложной логикой, где применяются булевы и контекстные операторы и т.п., второй - где этого не требуется

Поиск по полям

Отдельного рассмотрения заслуживает возможность поиска по полям, которая зачастую позволяет ограничивать диапазон поиска значениями URL, датами, заглавиями и т. п.

В системе HotBot эта возможность называется "Meta words" и позволяет выполнять поиск по доменным именам (domain:[имя]); отдельным типам файлов, (например, feature:acrobat обеспечивает поиск по файлам в формате Adobe Acrobat); заглавиям (title:[слово]); датам (after:[день]/[месяц]/[год] и befor:[день]/[месяц]/[год]) и др. В системе Northern Light возможен поиск по таким полям: URL, заглавие, компания, название журнала (для специальной коллекции сайта), текст. В системе AltaVista обеспечивается поиск податам с помощью операторов "From:" и "To:". Этот режим назван "веб-археологией". InfoSeek обеспечивает поиск поиск по ссылкам в html-документах ("link:"), в пределах сайтов ("site:"), по URL ("url:"), по заглавиям ("title:") и меткам, приписываемым изображениям ("alt:"). Rambler реализует поиск как по всему документу ("$ALL"), так и по URL ("$URL"), заглавиям ("$Title"), адресам ("$Address") и др. Яndex позволяет искать в двух зонах заголовках ("Title") и ссылках ("A"). Апорт обеспечивает поиск по URL ("url="), датам ("date=[дата]" или "date:[диапазон дат]"), заголовкам ("title="), ключевым словам ("keywords="), меткам к изображениям ("alt="), ссылкам ("link="), комментариям ("comment="), текстам ("text=").

Поиск похожих документов

Одной из возможностей, присущих многим современным системам, является способность нахождения документов, похожих на уже найденные. Эта возможность называется "положительной обратной связью".

Что означает "похожий документ", по каким критериям это определяется, зачастую остается загадкой для пользователя. Один из подходов к ее решению может быть таким: каждое значимое по мнению системы слово "взвешивается" по какому-то критерию, из наиболее весомых слов автоматически формируется запрос, рассматриваемый как некоторый ранговый критерий поиска. Такой режим реализован, например, на серверах Excite ("More Like This") и Яndex ("Найти похожие документы"). Этот режим реализован в системах, использующих "весовой" критерий релевантности. Одной из самых распространенных в мире систем такого класса является WAIS (Wide Area Information Servers), реализующая протокол ANSI Z39.50.

Вставка

Поиск файлов в Сети

В Интернет существуют системы, обеспечивающие поиск не только по веб-ресурсам, но и по файловым серверам (ftp-серверам). Приведем примеры нескольких известных поисковых систем этого типа. Система FAST FTP Search (http://ftpsearch.lycos.com) обеспечивает поиск в массиве ссылок на 100 млн. файлов, размещенных в Сети. При поиске в этой системе могут использоваться операторы "+" и "-"; в ней реализован режим расширенного поиска, а также возможен выбор тем по представленному каталогу.

Одна из наиболее известных систем поиска файлов - FILEZ (буква Z в конце слова в шутливой форме говорит о чрезмерно большом объеме и свободном доступе к ресурсам). Система (http://www.filez.com) охватывает свыше 75 млн. файлов, размещенных в Интернет, обеспечивая при этом поиск по именам файлов, описаниям, именам доменов.

Любителям бесплатного и условно бесплатного программного обеспечения хорошо известны два сайта CNET √ http://www.download.com и http://www.shareware.com. Первый из этих сайтов содержит сгруппированные по категориям ссылки и аннотации на 20 тыс. программ (возможность контекстного поиска безусловно присутствует). Второй сервер охватывает ссылки на более чем 250 тыс. freeware- и shareware-файлов.

В русскоязычной части Интернет существует система RUSSIAN FTP Search (http://ftpsearch.city.ru), охватывающая ссылки на 7 млн. файлов. Обеспечивается поиск по запросу, вводимому в специальную форму. В качестве строки запросов в этой ссистеме могут использоваться достаточно изощренные регулярные выражения, принятые обычно в UNIX-системах. Например, поиск по строгому выражению "abc" может кодироваться как "^abc$", а поиск по правой части выражения, начинающегося с "abc", кодируется как "^abc". Выражение типа "\.txt$" эквивалентно запросу файлов, расширение которых заканчивается на "txt".

Несколько советов напоследок

В заключение приведем несколько общих рекомендаций по поиску информации в Интернет:

  • Выделяйте ключевые слова для поиска, наиболее точно отражающие интересующую вас проблематику.
  • Начинайте поиск с наиболее известных и мощных поисковых серверов.
  • Используйте метапоисковые системы, обеспечивающие поиск сразу по нескольким поисковым серверам. Пример такой системы √ Metacrawler, размещенный по адресу http://www.metacrawler.com. Такие системы подходят для несложных запросов, но их применение зачастую бывает эффективным.
  • Для детального поиска используйте специализированные тематические или региональные поисковые серверы, если они вам известны. В противном случае попытайтесь их найти, используя ключевые слова, уточненные выражениями типа "search", "search engine" или "search.html".
  • Внимательно прочтите инструкцию (help, FAQ) по выбранной поисковой системе.
  • Начинайте поиск с простых запросов в режимах простого поиска. По мере получения результатов расширяйте или уточняйте запросы с помощью дополнительных возможностей, используя логические и контекстные операторы, поиск по полям и т. п., переходя в режим расширенного поиска.
  • При наличии средств ранжирования выдачи по степени релевантности обязательно используйте их. Это позволит вам достаточно быстро оценить результаты поиска в случаях, когда общие объемы выдачи могут превышать все разумные рамки.

Пользуясь рядом вышеизложенных рекомендаций, зная возможности и особенности работы распространенных систем, поиск необходимой информации в Интернет можно превратить из долговременного кошмара с перебором сотен документов во вполне обычную рабочую процедуру, занимающую минимум времени. Итак, "доброй охоты"!

Дмитрий Ландэ,
заместитель директора ИЦ
"ЭЛВИСТИ"