Новостной Интернет

                     

Дмитрий ЛАНДЭ, Александр МОРОЗОВ

Параллельно с визуальным вэбом

Сегодня Интернет - это огромное хранилище информации, интегрированный доступ к динамической составляющей которого - новостным ресурсам - затруднен. Разнообразие информации, в том числе и новостных сообщений, в Сети не может быть полезным на практике при отсутствии эффективного доступа. Так, по оценкам экспертов, около 79% журналистов обращаются к Интернет в поисках новостей, и лишь 20% находят ту информацию, которая им необходима.

Язык HTML, основной формат представления информации в Интернет, описывает лишь внешний вид Web-сайтов, обеспечивая прежде всего визуализацию данных. Он был разработан исключительно для отображения содержания сайтов, и не всегда удобен для автоматической обработки информации, в том числе и для организации поиска. Т.е. вся сеть Интернет ориентирована на показ пользователям отдельных сайтов и плохо приспособлена для автоматизированного сбора информации, ее классификации и аналитической обработки. Сегодня представление информации на разных сайтах настолько отличаются по оформлению и расположению, что отбирать ее и обрабатывать можно только вручную.

Так при необходимости обмена информацией между несколькими Web-сайтами, всегда возникает задача унифицированного представления контента. В противном случае, изменение HTML-оформления одного сайта приведет к необходимости одновременной модификации программного обеспечения на всех сайтах, которые принимают его информацию. Аналогичная ситуация возникает при необходимости импортировать информацию на один сайт с нескольких других. Изменения оформления на каждом из сайтов-источников информации будет всегда приводить к необходимости модификации соответствующего программного кода на целевом сайте.

Как видно, сегодня необходимо использование унифицированного формата данных на сайтах, стандарта, обеспечивающего однотипный обмен данными в Интернет. В качестве такого унифицированного формата все шире используется язык eXtensible Markup Language (XML) и его диалекты.

Семантический Web

Одним из первых проектов унификации обмена данными в Интернет, стал Семантический Web. Основная идея проекта заключалась в такой организации данных, чтобы Web- серверы могли их использовать, а не только визуализировать, чтобы программы разных производителей могли эффективно работать с Web-контентом. Именно для Семантического Web были разработаны спецификации XML, предусматривающие разделение средств визуализации и смыслового содержания.

XML представляет собой метаязык, то есть язык, на базе которого можно определять новые языки. При этом он предназначен не только для организации обмена данными в Web, но и для распознавания семантики этих данных. В отличие от HTML, XML обеспечивает представление информации в чистом виде, предполагая ее структурную, а не оформительскую разметку.

Вместе с тем, формально элементы разметки (теги) XML оторваны от определения их смыслового наполнения. Поэтому параллельно с XML было начата разработка стандарта схемы описания источников (Resource Description Framework - RDF) - языка формального описания содержимого Web-сайтов в рамках единого стандарта. Спецификации RDF поддерживают теги, позволяющие определять любые понятия (например, тегами PRICE и INVOICE можно пользоваться для обозначения цены и счета, соответственно). Следует заметить, что данным в формате RDF присваиваются дескрипторы, которые могут определяться в отдельных файлах определения типов документов (Document Type Definitions - DTD). Сегодня практически в каждой отрасли знаний имеется свой, постоянно расширяющийся список DTD. На основе XML и RDF был создан формат RSS, специально предназначенный для организации информационной коммуникации как между людьми, так и между серверами.

Синдикация новостной информации

Оптимальное решение, способное помочь ориентироваться в новостной информации Интернет, сегодня предоставляют информационные службы нового типа - системы синдикации новостей. Под синдикацией в данном случае понимается сбор информации в Интернет и последующее распространение ее фрагментов в соответствии с потребностями пользователей. Кроме того, службы синдикации обеспечивают публикацию одних и тех же данных на различных сайтах (в том числе, предназначенных для карманных компьютеров и мобильных телефонов).

Технология синдикации Интернет-новостей включает в себя "обучение" программ сбора структуре выбранных источников (Web-сайтов), непосредственное сканирование информации, ее приведение к общему формату (в последнее время - к XML), классификацию и доставку пользователям различными путями (e-mail, Web, WAP, SMS и т.д.).

Форматы синдикации новостей

Для решения задачи синдикации новостей было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary, хотя изначально он назывался RDF Site Summary. Смысл всех этих аббревиатур заключается в простом способе обобщения и распределения информационного наполнения Web-сайтов - синдикации контента.

Изначально RSS создавался компанией Netscape для портала Netcenter как одно из первых XML-приложений, но затем стал использоваться на многих других сайтах. Сегодня практически все ведущие новостные сайты. "Живые журналы", работающие в Интернет, используют RSS в качестве инструмента оперативного представления своих обновлений. Например, сегодня экспорт в RSS осуществляют крупнейшие порталы, включая CNN, BBC News, Amazon, CNet News, MSNBC, The Register, Wired и т.д.

RSS действительно обеспечивает согласованный способ резюмировать содержимого Web- сайтов. Кроме того, его применение позволило администраторам новостных сайтов, онлайновых дневников - блогов, форумов и других часто обновляемых Web-ресурсов, представить информацию в унифицированном виде.

Предполагается, что год 2004 станет "Годом RSS", т.е. ожидается повсеместное широкое внедрение этого формата. Аналитики отмечают, что только в начале 2004 года, Интернет- пользователи по-настоящему открыли для себя все прелести технологии RSS. Сегодня для работы с новостями в формате RSS разрабатываются все новые программы, сайты и поисковые системы, которые все более востребованы, в частности пользователями карманных компьютеров.

Итак RSS - это формат данных и технический стандарт, который обеспечивает интегрированный доступ к новостной информации, представленной на Web-сайтах, специально созданный для обмена их контентом.

Развитие RSS началось с версии 0.90, разработанной компанией Netscape, но его посчитали очень сложным, и Netscape разработала упрощенную версию - 0.91, которую, после бума портальных технологий передала компании UserLand Software. Это самый простой и доступный стандарт, который применяется сегодня в тех ситуациях, когда требуется несложный экспорт заголовков. Одновременно еще одна организация - RSS- DEV Working Group, создала свою версию RSS (1.0), близкую к исходной версии RSS 0.90 и максимально приближенную к стандарту RDF. RSS 1.0 предоставляет больше возможностей чем все 0.9х , например, допускает расширение при помощи модулей. Компания же UserLand решила развить ветвь 0.9х и создала версии 0.92, потом 0.93, 0.94, которые позволяют представлять метаданные, и наконец 2.0. При этом RSS 2.0 - не новая версия RSS 1.0, а логическое продолжение ветви 0.9х. В ней также добавлена поддержка модулей. В настоящее время существует 7 независимых версий RSS - RSS 0.90, 0.91, 0.92, 0.93, 0.94, 1.0, 2.0. Эти версии отличаются друг от друга, хотя все они ориентированы на один тип информации и содержат одинаковые базовые поля. При этом, многие считают все версии, кроме 2.0 устаревшими и ╚отмененными╩, но это далеко не так, пока еще самой популярным является RSS 0.91. Что же касается версти 0.94, то ее спецификации не сохранилось даже на авторском сайте Userland. Так по адресу http://backend.userland.com/rss094 находится спецификация версии RSS 2.0.

Спецификации отдельных версий формата RSS приведены на таких Web-страницах:


RSS 0.90: http://www.purplepages.ie/RSS/netscape/rss0.90.html
RSS 0.91: http://my.netscape.com/publish/formats/rss-spec-0.91.html
RSS 0.92: http://backend.userland.com/rss092
RSS 0.93: http://backend.userland.com/rss093
RSS 1.0: http://web.resource.org/rss/1.0/
RSS 2.0: http://backend.userland.com/rss/

Во всех версиях RSS есть некоторые особенности, но объединяет их ориентация на один тип информации, вследствие чего они содержат общие базовые поля: основной блок данных (channel), который содержит из атрибуты заглавие канала (title), ссылки (link), данные о языке сообщений (language) и логотип (image), после которых идет список самих сообщений, где в каждом пункте (item) указывается заголовок (title), краткое описание (description) и ссылка на новость (link). Кроме того, каждый RSS-файл начинается обязательными элементами xml и rss. Первый из этих элементов содержит атрибуты version (версия) и encoding (кодировка).

Среди множества необязательных элементов RSS можно назвать самые распространенные - язык (language), copyright, категория информации (category), дата и время публикации сообщения (pubDate), программа, которая использовалась для создания файла (generator), картинка, которую следует показывать наряду с текстовой информацией (image).

Кроме заголовка блока данных в формате RSS предусмотрено описание отдельных информационных элементов (item). Каждый элемент <item> - это отдельная статья или краткая аннотация и ссылка на полную версию статьи. Канал (channel) может содержать любое число элементов <item>, содержащих только два обязательных вложенных элементов - название (title) и описание (description). Кроме того, часто используются такие вложенные элементы: ссылка на первоисточник (link), категория (category), комментарий (comments) и автор (author).

В качестве примера новостного канала формата RSS 0.91 можно привести динамический файл, формируемый по адресу http://uaport.net/cgi-bin/infostream.rss (Обзор основных событий дня "Електронн╕ В╕ст╕"), имеющий такой вид:


<?xml version="1.0" encoding="windows-1251" ?>
<!DOCTYPE rss PUBLIC "-//Netscape Communications//DTD RSS 0.91//EN"
"http://my.netscape.com/publish/formats/rss-0.91.dtd">
<rss version="0.91">
<channel>
<title>Електронн╕ В╕ст╕</title>
<language>ru</language><image>
<title>Електронн╕ В╕ст╕</title>
<url>http://www.elvisti.com/images/export/elvisticom3_88x31.gif</url>
<link>http://www.elvisti.com</link>
<width>88</width>
<height>31</height>
</image>

<item><title>РАДАР СЛЕДИТ ЗА КОСМИЧЕСКИМ МУСОРОМ</title>
<description>В японской префектуре Окаяма с 6 апреля начал работать радар
с дистанционным управлением, основная функция которого состоит в
отслеживании перемещения космического мусора.</description>
<link>http://elvisti.com/2004/04/06/sci-tech.shtml#3</link>
</item>

<item><title>В ИВАНО-ФРАНКОВСКОЙ ОБЛАСТИ КУРИЦА СНЕСЛА ЯЙЦО ВЕСОМ 143 Г</title>
<description>В селе Делиев Галицкого района Ивано-Франковской области курица снесла
яйцо весом 143 г. </description>
<link>http://elvisti.com/2004/04/06/misc.shtml</link>
</item>

<item><title>В США БОЛЕЕ 60% КОРПОРАЦИЙ В 1990-Е ГОДЫ НЕ ПЛАТИЛИ НАЛОГИ</title>
<description>Более 60% американских корпораций в период бума
американской экономики с 1996 по 2000 годы не платили налоги в государственную казну,
сообщило Главное бюджетно-контрольное
управление США.</description>
<link>http://elvisti.com/2004/04/06/biz.shtml#2</link>
</item>

<item><title>СЕДЬМОЕ АПРЕЛЯ - ВСЕМИРНЫЙ ДЕНЬ ЗДОРОВЬЯ</title>
<description>В нынешнем году по рекомендации ВОЗ этот день пройдет под лозунгом
"Безопасность на дорогах зависит от каждого из нас".</description>
<link>http://elvisti.com/2004/04/06/health.shtml#2</link>
</item>
</channel>
</rss>

Помимо формата RSS, недавно появился формат Atom 3.0 (http://www.mnot.net/drafts/draft- nottingham-atom-format-02.html), пока окончательно не утвержденный, но используемый на крупнейшем поисковом портале Google, что предопределяет его популярность. Открытый стандарт Atom совершенствуется командой программистов из IBM, Google и других компаний.

Как и RSS, Atom является подмножеством XML. Приведем пример файла в формате, чтобы подчеркнуть его близость с RSS:
<?xml version="1.0" encoding="utf-8"?>
<feed version="0.3" xmlns="http://purl.org/atom/ns#">
<title>Наименьший возможный фид в формате Atom 3.0</title>
<link rel="alternate" type="text/html" href="http://diveintomark.org/"/>
<modified>2004-04-09T18:30:02Z</modified>
<author>
<name>Иванов Петр</name>
</author>
<entry>
<title>Atom 0.3 пример</title>
<link rel="alternate" type="text/html"
href="http://uaport.ua/2004/04/09/atom03"/>
<id>tag:uaport.ua,2004:4.2397</id>
<issued>2004-04-09T08:29:29-04:00</issued>
<modified>2004-04-09T18:30:02Z</modified>
</entry>
</feed>

Дэйв Уинер (Dave Winer), один из главных разработчиков RSS, недавно призвал разработчиков объединить свои усилия и разработать единый формат, совместимый как с RSS, так и с Atom, чтобы слить конкурентные стандарты в единое целое. "Новый формат можно назвать RSS/Atom, - заявил Уинер. - Он бы имел всю функциональность, которую разработчики Atom обещают внедрить. Максимально авторитетный формат получил бы наиболее полную поддержку от всех разработчиков". Уинер предлагает, чтобы в RSS/Atom было как можно меньше отличий от RSS 2.0.

Еще один диалект XML - OPML (Outline Processor Markup Language) используется для описания совокупности RSS-фидов, спецификация которого размещена по адресу http://opml.scripting.com/spec. С помощью OPML обеспечивается эффективный унифицированный обмен списками RSS-фидов. Приведем фрагмент OPML-файла, обеспечивающий доступ к ново стям службы "All Headline News" (http://www.allheadlinenews.com/feeds.opml):
<?xml version="1.0" encoding="ISO-8859-1" ?>
<opml version="1.0">
<head>
<title>All Headline News</title>
<dateCreated>Mon, 12 Apr 2004 04:00:01 GMT</dateCreated>
<dateModified>Mon, 12 Apr 2004 04:00:01 GMT</dateModified>
<ownerName>AllHeadlineNews.com</ownerName>
<ownerEmail>feeds@allheadlinenews.com</ownerEmail>
<expansionState></expansionState>
<vertScrollState>1</vertScrollState>
</head>
<body>
<outline text="All Headline News">
<outline text="All Headline News - Accounting"
htmlUrl="http://www.allheadlinenews.com/news/Accounting" language="en" title="All
Headline News - Accounting" type="rss" version="RSS"
xmlUrl="http://www.allheadlinenews.com/cgi-bin/news/xml/newsxml.cgi?cat=Accounting" />
<outline text="All Headline News - Acupuncture"
htmlUrl="http://www.allheadlinenews.com/news/Acupuncture" language="en" title="All
Headline News - Acupuncture" type="rss" version="RSS"
xmlUrl="http://www.allheadlinenews.com/cgi-bin/news/xml/newsxml.cgi?cat=Acupuncture"
/>
<outline text="All Headline News - Adolescent Health"
htmlUrl="http://www.allheadlinenews.com/news/Adolescent%20Health" language="en"
title="All Headline News - Adolescent Health" type="rss" version="RSS"
xmlUrl="http://www.allheadlinenews.com/cgi-
bin/news/xml/newsxml.cgi?cat=Adolescent%20Health" />
<outline text="All Headline News - Adventure Sports"
htmlUrl="http://www.allheadlinenews.com/news/Adventure%20Sports" language="en"
title="All Headline News - Adventure Sports" type="rss" version="RSS"
xmlUrl="http://www.allheadlinenews.com/cgi-
bin/news/xml/newsxml.cgi?cat=Adventure%20Sports" />
</outline>
</body>
</opml>

Для доступа ко всем новостям службы "All Headline News" пользователю достаточно указать адрес http://www.allheadlinenews.com/feeds.opml в соответствующем окне своей программы чтения RSS, поддерживающей OPML (например, FeedDemon). В списке доступных RSS-фидов сразу же окажутся более 100 каналов службы, таких как:
All Headline News - Accounting
All Headline News - Acupuncture
All Headline News - Adolescent Health
All Headline News - Adventure Sports
All Headline News - Advertising
All Headline News - Aerospace
и др.

Источники новостного контента

Основным применением RSS в настоящее время являются новостные фиды (feed). Фид - это файл в формате RSS, в который записывается новостной контент Web-ресурса. Если есть необходимость оперативно отслеживать изменения на сайте, содержащем фид, то можно делать это с помощью программы-агрегатора не посещая самого сайта с помощью стандартных программ-браузеров.

Ниже приведены адреса самых популярных в Интернет фидов:
http://w.moreover.com/categories/ocs/ocsdirectory.rdf
http://10.am/extra/ocsdirectory.php
http://www.newsisfree.com/ocs/directory.xml
http://blogspace.com/rss/feeds/converted.ocs
http://www.groksoup.com/ocs/ocsdirectory.xml
http://theweb.startshere.net/channels.phtml?format=OCS
http://myrss.com/catalog/ocs04.rdf
http://www.syndic8.com/xml.php

В настоящее время в русскоязычной части Интернет представлены тысячи RSS-фидов, наиболее популярные из которых такие:
NEWSru.com - http://www.newsru.com/plain/rss/all.xml
Газета.ru - Все новости (RSS) ( www.gazeta.ru/export/gazeta_rss.xml )
Lenty.RU - http://www.lenty.ru/export/bestnews.rss
Подробности - (http://www.podrobnosti.com.ua/export/)
Lenta.ru - (http://lenta.ru/l/r/EX/import.rss)
Полит.РУ - (http://www.polit.ru/rss/index.xml)
Портал "Юридическая Россия" ( http://law.edu.ru/rss/news.rss )
Водка он-лайн - http://vodka.com.ua/export/rss.xml
Портал "ПлейМобайл" - http://playmobile.ru/news/rss
3Dnews - http://www.3dnews.ru/expnews/rss/newsrss.xml

Обширный список RSS-фидов русскоязычного сегмента Интернет находится по адресу http://my.yandex.ru/rss.opml; приведем лишь некоторые, наиболее интересные новостные фиды:
Аргументы и Факты - http://www.aif.ru/info/rss.php?magazine=aif
АвтоОБЗОР - http://auto.obzor.ru/news/autonews.xml
АвиаПорт.Ру - http://www.aviaport.ru/news/yandex_export.xml
Деловая Хроника - http://www.chronicle.ru/l/r/EX/rsschannel.xml
K2Kapital - http://ad.k2kapital.com/cbp/mynetscape/mynews.news
Linux.org.ru - http://images.linux.org.ru/getrss.php3
PalmQ Online - http://www.palmq.net/backend.php
СПОРТ сегодня - http://www.sports.ru/sports_docs.xml
TRAVEL.RU. Все о путешествиях - http://www.travel.ru/inc/side/yandex.rdf
АПК-Информ - http://www.apk-inform.com/yandextr.php
ФОНТАНКА.РУ - http://www.fontanka.ru/_transmission_for_yandex.thtml
IMA Press. Тема дня - http://www.ima-press.ru/rss.php?newsblock=theme&limit=1
Журнал "Итоги" - http://www.itogi.ru/WebExport.nsf/Anons/itogi.xml
Остров. Новости Донбасса - http://www.ostro.org/yandex.php
ПОЛИТ.РУ - http://www.polit.ru/rss/index.xml?yandex_mode=1
PRAVDA.Ru - http://export.pravda.ru/yandex.txt
PR NEWS (все пресс-релизы компаний) - http://www.prnews.ru/yandex/business.asp
Энциклопедия поисковых систем - http://www.searchengines.ru/news/news.rdf
Сетевой журнал - http://www.setevoi.ru/weekly/export1.txt

На сегодня существует уже множество служб синдикации новостей, которые предоставляют в доступ тематические фиды, построенные на основе использования многочисленных источников. Такой фид, к примеру, доступен на портале UAport (http://uaport.net) и позволяет получить интегрированный доступ к потоку украинских и российских новостных сообщений, собираемому системой InfoStream?. С помощью RSS- шлюза системой InfoStream, предоставляется унифицированный доступ к информации, более чем с 600 Web-сайтов, сгруппированной по тематикам, языкам, странам, источникам. Объем этой информации сегодня превышает 20 000 сообщений в сутки. RSS- каналы UAport могут генерироваться системой по собственным запросам пользователей к поисковой системе.

Рассмотрим функциональность отдельных служб синдикации новостей, предоставляющих информацию в формате RSS.

Moreover

Для интеграции соответствующего запросам пользователей контента в корпоративные сети или порталы служба Moreover (http://www.moreover.com) использует собственное решение - Connected Intelligence. Прием информации в систему от 6500 источников в режиме реального времени осуществляется каждые 15 минут, классифицируется и группируются по темам.

На сайте Moreover содержатся сведения о технологических подходах к интеграции новостей, которые были созданы в этой службе и де-факто стали стандартами в системах мониторинга. Определена следующая технологическая цепочка: сначала выполняется оценка информационного содержания вэб-ресурса и построение конфигурационных профилей, описывающих данный ресурс. Редакторы в автоматизированном режиме оценивают ресурсы и формируют профили, удовлетворяющие информационным потребностям клиентов. Затем вэб-ресурсы автоматически сканируются в соответствии с профилями, происходит преобразование информации в формат XML с добавлением RSS- тэгов. При этом устраняется дублирование. В соответствии с заданными правилами выполняется автоматическая классификация информации и загрузка ее в базы данных. Служба обработки запросов учитывает содержательную часть и требования к регламенту доставки. На последнем этапе происходит вывод и доставка информации клиентам на их вэб-сайты, в интранет-сети, на входы различных программных приложений.

В июле 2003 года технология Moreover была интегрирована в новостной портал Yahoo!, с сайта которого (http://news.yahoo.com) возможен доступ к информации из 3500 источников.

Google

В 2002 году популярная поисковая система Google запустила свой новостной сервис - Google News (http://news.google.com), который охватывает информацию с 4500 различных сайтов за последние 30 дней. Данные на сайте системы отсортированы по нескольким категориям, таким как международные новости, деловой мир, шоу-бизнес, технологии и спорт.

Новости в системе отбираются в зависимости от времени их публикации, популярности источника информации и количества статей, появившихся в Интернете, на данную тему. Компания Google -популяризатор и один из разработчиков формата Atom, применяемого в основном в блогах.

Вместе с тем, компания Google с подозрением относится к широким возможностям RSS- синдикации, видя в этой технологи возможности для нарушений авторских прав. Так недавно Google запретила британскому веб-мастеру использовать результаты поиска в системе Google News на другом сайте в виде RSS-фида. Британский программист Джулиан Бонд создал скрипт на языке PHP, который берет введенный пользователем запрос, направляет его на Google News, а результат выдает в формате RSS. Полученный результат можно использовать в любом RSS-агрегаторе. Сам скрипт под названием gnews2rss можно найти на сайте http://www.voidstar.com/gnews2rss.php. По словам Бонда, основной протест со стороны Google вызвал не сам скрипт, а использование его для формирования новостной ленты на постороннем сайте. Сам скрипт все еще доступен в интернете и его можно использовать в программах-агрегаторах. Тем не менее, в письме Бонду в Google указывали на то, что предпочтительным вариантом является применение службы Google News Alerts.

NewsIsFree

Одна из самых перспективных в Сети служб синдикации новостей NewsIsFree (http://www.newsisfree.com) охватывает свыше 9000 источников (в том числе, российских и украинских). Сообщения обновляються каждые 15 минут и группируются по 15 основным категориям (http://www.newsisfree.com/sources/browse/). Примечательно, что режим поиска в RSS-ресурсах обеспечивается поисковым механизмом компании Google. Основная особенность службы NewsIsFree - это полная интеграция с XML, в частности с RSS 0.91. Большинство разделов сайта службы содержат ссылки Syndicate, активизация которых приводит к отображению кода разделов в формате XML.

Несмотря на то, что основу информационных ресурсов, охватываемых службой, составляют англоязычные источники, NewsIsFree сегодня крупнейший интегратор и русскоязычных RSS-фидов, каталог которых доступен по адресу: http://newsisfree.com/sources/bylang/?lang=ru.

MSDN

Учитывая существующие в мире тенденции служба MSDN (http://msdn.microsoft.com) также приступила к публикации своих новостей в формате RSS, выбрав версию 2.0. Ниже приведен список некоторых тем и адресов новостных фидов MSDN:
.NET Framework (http://msdn.microsoft.com/netframework/rss.xml)
ASP.NET - http://msdn.microsoft.com/asp.net/rss.xml
FrontPage - http://msdn.microsoft.com/office/frontpage/rss.xml
Longhorn - http://msdn.microsoft.com/longhorn/rss.xml
Mobile and Embedded - http://msdn.microsoft.com/mobility/rss.xml
MSDN Subscriptions - http://msdn.microsoft.com/subscriptions/rss.xml
Office - http://msdn.microsoft.com/office/rss.xml
Security - http://msdn.microsoft.com/security/rss.xml
Visual Basic - http://msdn.microsoft.com/vbasic/rss.xml
Visual C# - http://msdn.microsoft.com/vcsharp/rss.xml
Visual C++ - http://msdn.microsoft.com/visualc/rss.xml
Visual FoxPro - http://msdn.microsoft.com/vfoxpro/rss.xml
Visual J# - http://msdn.microsoft.com/vjsharp/rss.xml
Visual Studio - http://msdn.microsoft.com/vstudio/rss.xml
Web Services - http://msdn.microsoft.com/webservices/rss.xml
Windows Embedded - http://msdn.microsoft.com/embedded/rss.xml

Яндекс.Новости

Служба "Яндекс" открыла проект Яндекс.Новости (http://news.yandex.ru) , к которому в настоящее время присоединилось свыше 500 Интернет-изданий. Новости сортируются по десяти категориям, существует возможность поиска новостей с указанием раздела и времени публикации новости. Поиск новостей возможен как по всем источникам, так и по заданным пользователем. Имеется также возможность поиска за произвольный период времени. Для сбора и экспорта новостей используется формат RSS 2.0.

Сегодня бесплатная служба синдикации новостного контента ╚Яндекс╩ представляет такие основные каналы:
Главные новости - http://news.yandex.ru/index.rss
Политика - http://news.yandex.ru/politics.rss
В мире - http://news.yandex.ru/world.rss
Общество - http://news.yandex.ru/society.rss
Экономика - http://news.yandex.ru/business.rss
Спорт - http://news.yandex.ru/sport.rss
Происшествия - http://news.yandex.ru/incident.rss
Культура - http://news.yandex.ru/culture.rss
Здоровье - http://news.yandex.ru/health.rss
Компьютеры - http://news.yandex.ru/computers.rss
Интернет - http://news.yandex.ru/internet.rss
Авто - http://news.yandex.ru/auto.rss

InfoStream

Разработанная в Информационном центре "ЭЛВИСТИ" система InfoStream® (http://infostream.ua) предназначена для автоматизированного сбора информации с открытых Web-сайтов, ее обработки, систематизации и обеспечения доступа к ней. Если пользователь хочет получать новостную информацию по интересующей тематике по e- mail, SMS или встроить постоянную подборку в свою веб-страницу, то к его услугам сервис InfoStream Сlient .

Персонализация интерфейса пользователей, работающих в режиме онлайн, т.е. сохранение их постоянных запросов и организация подписки, реализуется на основе современной технологии RSS 0.91.

Для получения тематической ленты InfoStream (RSS-фида), в соответствующее поле RSS- агрегатора следует ввести адрес в формате: http://uaport.net/cgi-bin/infostream.rss?<ЗАПРОС>, где в качестве запроса можно ввести слово или словосочетание на языке запросов информационно-поисковой системы InfoReS.

На основе технологии InfoStream созданы такие новостные каналы:
Агропром - http://uaport.net/cgi-bin/infostream.rss?rubr01
Банки - http://uaport.net/cgi-bin/infostream.rss?rubr02
Экономика - http://uaport.net/cgi-bin/infostream.rss?rubr03
Экономика Украины - http://uaport.net/cgi-bin/infostream.rss?rubr04
Недвижимость - http://uaport.net/cgi-bin/infostream.rss?rubr05
Биржи - http://uaport.net/cgi-bin/infostream.rss?rubr06
Инвестиции - http://uaport.net/cgi-bin/infostream.rss?rubr07
Приватизация- - http://uaport.net/cgi-bin/infostream.rss?rubr08
Нормативные акты - http://uaport.net/cgi-bin/infostream.rss?rubr09
Оборона, Конверсия - http://uaport.net/cgi-bin/infostream.rss?rubr10
Официальная хроника - http://uaport.net/cgi-bin/infostream.rss?rubr11
Криминал - http://uaport.net/cgi-bin/infostream.rss?rubr12
Обзоры прессы - http://uaport.net/cgi-bin/infostream.rss?rubr13
Связь - http://uaport.net/cgi-bin/infostream.rss?rubr14
Экология - http://uaport.net/cgi-bin/infostream.rss?rubr15
Энергетика - http://uaport.net/cgi-bin/infostream.rss?rubr16
Медицина - http://uaport.net/cgi-bin/infostream.rss?rubr17
Наука и техника - http://uaport.net/cgi-bin/infostream.rss?rubr18
Компьютеры - http://uaport.net/cgi-bin/infostream.rss?rubr19
Астрология - http://uaport.net/cgi-bin/infostream.rss?rubr20
Культура - http://uaport.net/cgi-bin/infostream.rss?rubr21
Катастрофы - http://uaport.net/cgi-bin/infostream.rss?rubr22
Образование - http://uaport.net/cgi-bin/infostream.rss?rubr23
Внешнеэкономическая деятельность -
http://uaport.net/cgi-bin/infostream.rss?rubr25
Масс-медиа - http://uaport.net/cgi-bin/infostream.rss?rubr26
Калейдоскоп - http://uaport.net/cgi-bin/infostream.rss?rubr27
Религия - http://uaport.net/cgi-bin/infostream.rss?rubr28
Спорт - http://uaport.net/cgi-bin/infostream.rss?rubr29
Туризм - http://uaport.net/cgi-bin/infostream.rss?rubr30
Транспорт - http://uaport.net/cgi-bin/infostream.rss?rubr31
Автотранспорт - http://uaport.net/cgi-bin/infostream.rss?rubr32
Политика - http://uaport.net/cgi-bin/infostream.rss?rubr34
Страхование - http://uaport.net/cgi-bin/infostream.rss?rubr35

Системы поиска фидов

Для нахождения RSS-фидов существуют многочисленные списки и каталоги, однако объемы существующих RSS-ресурсов таковы, что пользователям уже не достаточно десятка-другого рубрик первого уровня, присутствующих в каталогах. Как всегда в подобных случаях на помощь приходять информационно-поисковые системы, которые позволяют находить как целые RSS-фиды, так и отдельные сообщения по ключевым словам. Поэтому в Интернет появились поисковые сайты по RSS-фидам. Одним из первых был сервис Feedster.com, который кроме непосредственно поиска позволяет подписаться на его результаты в формате RSS. В настоящее время Feedster обрабатывает 500 тысяч RSS-сообщений в сутки.

Еще одна поисковая система доступна на сайте http://Assimilatethe.net. Эта система охватывает свыше 3500 RSS-ресурсов. Система ищет по заголовкам и описаниям RSS- сообщений. В базе данных системы Assimilatethe сейчас порядка 193,000 сообщений.

Как известно RSS - самый распространенный формат для "живих журналов" - блогов (от слова Weblog). Для поиска по блогам также существуют сотни каталогов и поисковых систем. Среди основних поисковыми систем по блогам можно назвать:
DayPop - http://www.daypop.com
Blog Search Engine - http://blogsearchegine.com
Feedster - http://www.feedster.com
BlogStreet - http://www.blogstreet.com
Blogarama - http://blogarama.com/in.php?ID=2080
Globe of Blogs - http://www.globeofblogs.com
BlogDex - http://blogdex.media.mit.edu
Weblogs.com - http://weblogs.com
BlogWise - http://www.blogwise.com
BlogHop - http://www.bloghop.com
BlogUniverse - http://www.bloguniverse.com

Агрегаторы

Пользователи, конечно же могут читать RSS-файлы с помощью стандартних Web- браузеров, что однако сопряжено с просмотром XML-разметки и полным отсуствием всякого оформления. За это и боролись создатели формата RSS. А вот для интерпретации этого формата существует бесчисленное множество программ, соданных в основном в последние два-три года. Т.е. пользователи могут получить доступ к данным в формате RSS с помощью специальных программ. Эти программы называются RSS-агрегаторами и в наглядном виде отображают содержание RSS-фидов.

Программа-агрегатор позволяет собирать RSS-файлы с Web-сайтов, одновременно следить за появлением на них новостей и читать их содержание этих новостей. Программы-аггрегаторы (их еще называют RSS-парсерами) выполняют синтаксический разбор данных, представленных в формате RSS, после чего могут реализовывать любые действия по отношению к этим данных, например, отсылать их по электронной почте либо отображать на определенном Web-сайте. Сегодня наиболее популярны агрегаторы, позволяющие собирать RSS-данные с разных Web-сайтов вместе.

Feedreader (http://www.feedreader.com)

Feedreader - это свободно распространяемая программа для Windows, позволяющая читать данные в формате RSS версий 0.9, 0.91, 1.0, а также различную информацию от таких систем, как Dublin Core и Slashback (стандарты описания метаданных информационных ресурсов Сети). Утилита очень удобна в использовании, обеспечивает работу с информацией на русском и украинском языках, и обладает широким кругом сервисных возможностей. FeedReader версии 2.5 можно загрузить по адресу http://sourceforge.net/project/showfiles.php?group_id=70179, размер инсталлятора - 1,2 Мбайт.

Feedreader - типичный RSS-агрегатор, интерфейс котрого напоминает интерфейс почтовых программ. У пользователя, знакомого с почтовыми клиентами, работа с программой не вызывает затруднений. Остановимся подробнее на самих необходимых возможностях этой программы.

Для настройки подписки на RSS-фид пользователю следует активизировать опцию New и ввести следующую информацию:
адрес RSS-фида;
название фида (оно может быть определено пользователем);
периодичность обращения к фиду на Web-сайте для обновления.

При этом имеется возможность изменения кодировки, размеров шрифтов, помещения фида в отдельную папку, группировки фидов.

Для управления подпиской в существуют дополнительные опции, активизируемые нажатием правой клавиши мыши при установке курсора на конкретном фиде:
обновление фида (списка активных сообщений);
отметка всех сообщений как уже прочитанных;
удаление списка сообщений;
изменение свойств подписки, включая тему, периодичность и др.

Для получения полного текста сообщения (на которое есть ссылка - <link>), заголовок и аннотация которого вызвали интерес, следует:
произвести двойное нажатие левой клавиши мыши на заголовке или
нажать на ссылку "Read on" в поле аннотации или
нажать на соответствующую кнопку, стоящую перед заглавием или
нажать правую клавишу мыши, находясь курсором на заглавии, при этом можно открыть текст сообщения в новом окне браузера или
активизировать ссылку первоисточника и выйти через сеть Интернет на первоисточник.

FeedDemon (www.feeddemon.com)

Feed Demon представляет собой коммерческую программу, обеспечивающую удобную работу с RSS версии 2.0. Имеется возможность попробовать работу програмы в ╚триальном╩ режиме. Утилита работает в среде Windows, корректно обращается с русской и украинской кодировками, обеспечивает поиск-фильтрацию информации фидов. Триал-версия FeedDemon 1.0 находится по адресу http://www.feeddemon.com/download/ dloadhandler.asp?file=feeddemon- trial.exe, размер инсталятора - 2,3 МБайта. В дружественном пользователю интерфейсе агрегатора легко отслеживать и читать свежие фиды. Feed Demon позволяет представлять содержимое новостных лент в виде своеобразной газеты.

Приступить к использованию программы можно немедленно после инсталляции, так как сразу пользователь начнет получать рассылки с сайтов Rollingstone.com, Scripting News, Sladshot, Wired, Yahoo! и др. Сообщения программа позволяет сохранять (News Bins) и отслеживать по ключевым словам, запуская функцию Watches. Отдельные RSS-фиды можно перенаправлять в тематические списки или каналы. FeedDemon также позволяет проводит поиск и читать новости в автономном режиме.

Для подписки на фиды в программе следует ввести URL источника или импортировать файл OPML. Цена FeedDemon 1.0 составляет $29,95.

Abilon и ActiveRefresh

Эти два агрегатора от одного производителя - компании Abilon и ActiveRefresh и (http://www.activerefresh.com/download.php). Бесплатная программа Abilon вполне подходит для среднего пользователя, программа проста и надежна, отличается высокой скоростью и малой ресурсоемкостью (339 КБ). Она обладает возможностью закачки новых каналов с сайтов MoreOver, MyRss и NewsIsFree. Однако ей не хватает возможностей глобального поиска и сжатия информации.

В отличие от Abilon, ActiveRefresh - это платная программа - полная реализация концепции компании, которая позволяет аггрегировать обычные Web-сайты, импортировать с них новости, представленные в HTML, следить за почтовыми ящиками, проводить глобальный поиск и т.д.

Syndirella 0.9b

Syndirella (Синдирелла) может показывать информацию как с обычных вэб-страниц, так и отображать данные, представленные в формате RSS. Программа реализована на платформе .NET, функционирует в среде операционных систем Windows, и требует установки Internet Explorer версии 5.0 или выше. Для работы программы необходимо инсталлировать библиотеку Microsoft .NET Framework runtime версии 1.0 (20 Мб). Однако если эта компонента уже установлена, то сама программа Syndirella займет всего 250 Кб. Адрес для загрузки: http://www.yole.ru/projects/syndirella .

Сегодня большую популярность, кроме перечисленных, для работы под Windows получили еще два агрегатора - Awasu и Beaver. Особенность бесплатной программы Awasu (http://www.awasu.com) заключается в ее возможности объединять потоки множества новостных сайтов и блогов. Beaver (http://www31/brinkster.com/toolmaker) принимает фиды форматов RSS/RDF и имеет привычный интерфейс в стиле Outlook Express.

K.R.S.S. 2.6

KDE's Rich Site Summary viewer - приложение для Linux, позволяющее отображать данные в формате RSS на экране в виде HTML-страниц. Есть возможности по настройке вида отображения при помощи Cascading Style Sheets (CSS) и установки специальных фильтров новостей. Адрес для загрузки программы: http://krss.sourceforge.net/downloads.html , размер файла - 394 Kб.

Liferea

В последнее время для ОС Linux большую популярность приобретает агрегатор Liferea (http://liferea.sourceforge.net/). Liferea поддерживает многочисленные основанные на XML форматы новостных фидов, такие как RSS, RDF, Atom, Echo, PIE, а также OCS и OPML для списков фидов. Эта программа распространяетс с библиотекой GTK2.

Opera 7.5

Норвежская компания Opera Software (http://www.opera.com/) выпустила новую версию браузера Opera 7.5. В программе появился встроенный RSS-агрегатор. Доступ к нему организован через интерфейс почтового клиента.

В настоящее время создаются и уже созданы многочисленные инструментальные средства для разработки программ работы с RSS-данными. Например, для разработки программ-парсеров на языке Perl создан модуль XML::RSS, который загружается с сайта http://search.cpan.org/.

Встраеваемые в Internet Explorer инструментальные полосы (тулбары) от Dogpile (http://www.dogpile.com/info.dogpl/tbar/) и HotBot Desktop (http://www.hotbot.com/tools/desktop/) поддерживают технологии RSS и Atom. С помощью этой возможности заголовки сайтов, поддерживающих RSS, просматриваются прямо не выходя из браузера.

Одна из самых заметных черт интерфейса будущей весии ОС Windows - Longhorn заключается в наличие многофункциональной боковой панели (Sidebar). На нее может быть помещена любая информация - от часов и списка контактов до новостей, импортируемых в формате RSS. При этом средства настройки панели включены в состав инструментария разработчиков и поддаются настройке с их стороны.

RSS для мобильных устройств

Владельцы же КПК, установив на свои устройства RSS-агрегаторы, могут эффективно просматривать новостные файлы в RSS - формате. Для платформы Palm OS наиболее популярной является программа компании Stand Alone - Hand RSS. Стоит эта программа $14.95, но скачать и опробовать ее демо-версию можно бесплатно (http://standalone.com/palmos/hand_rss/).

В качестве еще одного эффективного агрегатора можно назвать программу Quick Palm RSS Reader (http://remus.manilasites.com/).

Из специализированных для Pocket PC можно назвать агрегатор новостей в RSS/RDF PocketFeed (http://www.furrygoat.com/Software/).

Пятнадцатидневную демо-версию еще одной программы для этой платформы (PocketPC 2002 и Windows Mobile 2003) - PocketRSS 1.3 можно скачать на сайте http://www.happyjackroad.com/AtomicDB/ pocketpc/pocketRSS/pocketRSS.asp.

Не обязательно устанавливать программу-агрегатор прямо на наладоннике. Существуют серверные решения, выполняющие всю работу по интерпретации RSS-фидов и преобразованию результатов к формату, пригодному для КПК. Один из лучших сайтов подобного назначения - MobileRSS (mobilerss.net). Для работы с этим бесплатным сервером необходима лишь формальная авторизация. Зарегистрированный клиент вводит и активизирует адреса необходимых ему RSS-фидов, после чего просматривает их в свободном режиме. Примечательно, что этот зарубежный сервис обеспечивает корректную работу с кириллическими шрифтами.

Что день грядущий нам готовит...

С помощью современной RSS-технологии пользователи Интернет получили надежный и простой доступ к ресурсам оперативной информации с Web-сайтов Сети. Перспективность и популярность RSS как стандарта обусловлена прежде всего его доступностью и простотой. Сегодня практически все ведущие информационные сайты в мире, "живые журналы", работающиe в Интернет, используют RSS как инструмент оперативного представления обновлений своих ресурсов.

Еще один, неожиданный аспект применения RSS-технологий, стал актуален в связи с массовым распространением невостребованных рассылок по электронной почте - СПАМа. Действительно, электронная почта привлекательна и для спамеров. Нередко списки электронных адресов подписчиков новостей на сайтах и порталах становятся добычей взломщиков. Этот фактор делает подписку через e-mail достаточно рискованным занятием. Поэтому можно предположить, что на смену рассылкам придет использование RSS-фидов. В отличие от рассылок по электронной почте, где доставка инициируется администраторами сайтов, после того, как подписчик оставил им свой адрес, в случае с RSS пользователь сам вводит адрес необходимого ему RSS-фида в программу-агрегатор. Эта программа периодически проверяет, не изменилось ли содержание RSS-фида, и при наличие изменений автоматически закачивает его содержимое. Главным преимуществом RSS-технологии оказалось то, что пользователь сам принимает решение о получении каждого конкретного сообщения.

Популярность RSS-технологии у владельцев Web-ресурсов (не только новостных, но и коммерческих) набирает все большую популярность еще и благодаря своей экономичности - не требуется никаких средств борьбы со спамом, фильтрации писем, управления рассылкой. При этом все, кому это необходимо получают необходимую информацию о важных событиях, корпоративных анонсах, обновлениях Web-сайтов.

Индустрия рекламы также не осталась в стороне от использования технологий RSS. Хотя RSS версий допускает вставку гиперссылок и изображений, но как рекламный носитель RSS несколько уступает электронным письмам в HTML-формате. В настоящее время Сан- Франциско создается первая онлайновая рекламная сеть RSSAds, которая базируется на внедрении текстовой рекламы в заголовки RSS версий 0.90, 0.91, 1.0, 2.0 и Atom. Основателям этой сети удалось разработать систему подсчета рекламных показов - как только RSS-клиент обращается на сервер с запросом, система учитывает это событие. RSSAds планирует продавать рекламу, используя разнообразные модели: с оплатой за количество показов, за время показов, за количество кликов, а также за размещение рекламы в заголовках.

Системы синдикации Интернет-новостей решают проблему нахождения необходимой информации, но оставляют без внимания такие задачи, как обобщение данных - их обработку и анализ. Одним из самых перспективных направлений обобщения информационных потоков в настоящее время является метод ╚глубинного анализа текстов╩ (Text Mining). Применительно к новостным потокам его идеологию можно сформулировать как постоянное воспроизводимое во времени выполнение их содержательного анализа. Именно непрерывная аналитическая обработка сообщений является самой характерной чертой этого метода, который позволяет формировать автоматические дайджесты, выявлять новые понятия и их взаимосвязи, рассчитывать разнообразные рейтинги. Именно системы такого типа смогут избавить пользователей от дублирующейся информации, информационного шума, позволят выявлять главные тенденции, находить коррелирующие сообытия. По прогнозам аналитической компании IDC, спрос на подобные системы существенно возрастет в течение ближайших 4-5 лет. Ожидается, что 2005 году прибыль от продажи таких систем составит $1,5 млрд, а в 2006 году они будут доминировать в сфере анализа информации.


 Статьи автора, обобщенные в книге 

Поле боя - семантика
Сегодня информационные ресурсы Сети составляют свыше десятка миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Естественно, для того, чтобы найти необходимую информацию и этой крупнейшей распределенной полнотекстовой базе данных необходимо использовать самые мощные ИПС. Такие системы существуют и конкурируют друг с другом на современном рынке информационных технологий.
Подробнее >>

Text Mining
Попытки анализа больших объемов неструктурированных или слабо структурированных данных очень часто усложняют процесс принятия решений. Если широкий спектр поисковых систем достаточно легко справляется с "простым" полнотекстовым поиском, то для подобного анализа нужны технологии совсем другого типа, представленные системами добычи знаний.
Подробнее >>

Новостной Интернет
Для решения задачи синдикации новостей было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary, хотя изначально он назывался RDF Site Summary. Смысл всех этих аббревиатур заключается в простом способе обобщения и распределения информационного наполнения Web-сайтов - синдикации контента.
Подробнее >>

Система InfoStream®

При непосредственном участии автора и под его научным руководством в ElVisti создана система InfoStream®, с помощью которой охватываются новости из тысяч Web-сайтов, осуществляется их обработка и обобщение. Сервисы, построенные на основе Infostream, обеспечивают пользователям одновременный доступа в режиме поиска к информации из многих Web-сайтов, предоставляют возможность смысловой обработки и, вследствие этого, минимизацию усилий на получение необходимых данных из Интернет.

Методическое пособие


P e к л а м a: