Прогнозно-аналитические исследования на основе системы контент-мониторинга InfoStream

        

Д.В. Ландэ, С.М. Брайчевский, А.Н. Григорьев

Рассматриваются фрактальные свойства информационных потоков из Интернет. В качестве базы данных для вычислительного эксперимента выбрана система мониторинга сетевых новостей InfoStream. Представлена методика вычисления показателей Херста для кластера, определенного тематикой запроса, приведена качественная интерпретация результатов.

Введение

Основные тенденции развития нашего общества обуславливают постоянное повышение роли различных видов прогнозно-аналитических исследований. Причем этот рост наблюдается как в сфере разработки технологий, так и в повышении спроса на них. С другой стороны, прогресс в области современных информационных технологий открывает широкие перспективы инструментального обеспечения такого рода потребностей [1].

Вместе с тем существует и ряд технических сложностей, тормозящих эффективное внедрение систем, ориентированных на выполнение прогнозно-аналитических исследований. Одна из основных проблем заключается в отсутствии стабильных источников данных в объемах, позволяющих применять развитые статистические методы обработки информации.

Одним из возможных путей решения этой проблемы является, на наш взгляд, использование возможностей системы контент-мониторинга InfoStream, которая может не только предоставить пользователю необходимые .сырые. данные из Интернет, но и выполнять ряд операций по первичной обработке и обобщению необходимой информации.

Перспективность использования ресурсов Интернет

Любая технология, предназначенная для осуществления аналитических исследований даже с незначительным элементом прогнозирования, неизбежно должна быть способна к экстраполяции полученных зависимостей пусть даже на небольшие промежутки времени.

При этом возникает серьезная проблема получения объемов фактических данных, достаточных для построения точных зависимостей. Главная сложность состоит в том, что для их получения необходимо учитывать данные за достаточно большой промежуток времени, т.е. использовать информацию, существенно утратившую актуальность к моменту проведения исследований [2].

В последние годы появилась неплохая перспектива решения проблемы получения надежных первичных данных с помощью сетевых технологий. Действительно, в сети Интернет существует множество информационных ресурсов, хранящих информацию в собственных архивах, причем часто за продолжительные промежутки времени. Вопрос сводится к тому, как ими пользоваться. В этом плане следует выделить следующие аспекты:

- поиск необходимых информационных ресурсов;

- техническое обеспечение извлечения данных;

- выполнение процедур сортировки, рубрикации и т. д.;

- соблюдение авторских прав и ограничений на использование данных, которыми обладают их владельцы.

Поэтому в последние годы в сфере информационных технологий возникло новое направление, получившее название интеграции контента, и сопряженные с ним виды сервиса.

Контент-интеграторы на базе высокоэффективных технологических комплексов осуществляют извлечение данных из открытых источников Сети, попутно решая вопросы авторских прав и ограничений на использование данных в тех случаях, когда это необходимо. Далее, они систематизируют полученные данные таким образом, чтобы ими было удобно пользоваться, и делают их доступными клиентам с помощью специальных инструментальных средств.

Из наиболее известных контент-интеграторов можно назвать Google, NewsIsFree, Интегрум, Яндекс. В Украине лидером интеграции контента является Информационный центр .ЭЛВИСТИ., в котором была разработана технология InfoStream [3].

Система контент-мониторинга InfoStream

Как база для исследования прогнозных исследований на основе анализа тематических информационных потоков по заданной проблематике авторами использовалась система контент-мониторинга InfoStream. Эта система, которая применяется для решения задач автоматизированного сбора новостной информации из открытых Web-сайтов и обеспечения доступа к ней в поисковых режимах, в настоящее время охватывает свыше 2000 источников информации - больше 40000 уникальных сообщений в сутки. В ретроспективных базах данных комплекса накоплено свыше 30 млн. сообщений. Основные режимы работы системы обеспечивают:

- избирательное распространение информации;

- диалоговый доступ к полнотекстовым базам данных;

- обобщение и анализ информации (контент-мониторинг).

С точки зрения прогнозно-аналитических исследований, наибольший интерес представляет режим контент-мониторинга, средствами которого обеспечивается решение задач формирования тематических информационных каналов, дайджестов, таблиц взаимосвязей и гистограмм распределения понятий. Типичная задача этого комплекса - построение диаграмм динамики встречаемости понятий во времени. На Рис. 1, например, иллюстрируется, как с помощью этой диаграммы отслеживается появление в феврале 2006 года сообщений на украинском языке по тематике евроатлантической интеграции Украины.

Теоретические основы

Как один из эффективных методов прогнозно-аналитических исследований рассматривается фрактальный анализ временных рядов. В то время, как для традиционных средств научной коммуникации подходы к статистическим исследованиям информационных массивов с точки зрения теории фракталов были впервые исследованные Ван Рааном [4], который анализировал массивы статей и связи, образованные цитированием, информационные потоки сообщений из Интернет до последнего времени с фракталами не ассоциировались. Это связано с проблемами идентификации информационных потоков как фрактальных множеств, а также с трудностями нахождения основ для построения кластеров - сообщений в политематических потоках, которые порождают многократное цитирование. Вместе с тем временные ряды, порождаемые тематическими информационными потоками, также обладают фрактальными свойствами и могут рассматриваться как стохастические фракталы [5]. Этот подход расширяет область применения теории фракталов на информационные потоки, динамика которых описывается средствами теории случайных процессов.

Одним из основных свойств фракталов является самоподобие (скейлинг). Как показано в работах С.А. Иванова [6-7], для последовательности сообщений тематических информационных потоков в соответствии со скейлинговым принципом, количество сообщений, резонансов на события реального мира пропорционально некоторой степени количества источников информации (кластеров) и итерационно продолжается на протяжении определенного времени. Так же, как и в традиционных научных коммуникациях, множество сообщений в Интернет по одной тематике во времени представляет собой динамическую кластерную систему, которая возникает в результате итерационных процессов.

Рис. 1. Динамика встречаемости понятия, определенного тематическим запросом. Пиковые значения: Пресс-конференция Президента Украины с генеральным секретарем НАТО в Брюсселе (февраль 2005 г.); заседание комиссии Украина-НАТО на уровне министров иностранных дел (апрель 2005 г.); выступление министра иностранных дел Украины на Форуме по безопасности (май 2005 г.); встреча Президента Украины с генеральным секретарем НАТО (октябрь 2005 г.); конференция .Национальная безопасность Украины в контексте евроатлантической интеграции. (ноябрь 2005 г.)

Показатель Херста

Сегодня в связи с развитием теории стохастических фракталов становится популярной такая характеристика временных рядов, как показатель Херста (H).

Показатель Херста связан с коэффициентом нормированного размаха (R/S), где R - "размах" временного ряда, а S - стандартное отклонение. В свое время Херст экспериментально определил, что для многих временных рядов справедливо:

R/S = (N/2)^H.

Именно коэффициент H известен как показатель Херста. Доказано, что показатель Херста представляет собой меру персистентности - склонности процесса к трендам (в отличие от обычного броуновского движения). Значение H > 1/2 означает, что направленная в определенную сторону динамика процесса в прошлом, вероятнее всего, вызовет продолжение движения в том же направлении. Если H < 1/2, то прогнозируется, что процесс изменит направленность. H = 1/2 означает неопределенность - броуновское движение. В книге Э. Федера [5] показано, что показатель Херста связан с "традиционной" фрактальной размерностью (p) простым соотношением:

p = 2 - H.

Поэтому при расчете показателя Херста фактически определяется и такой показатель тематического информационного потока, как фрактальная размерность.

Вычислительный эксперимент

Тематика исследуемого информационного потока определялась запросом к системе InfoStream:

"Укра╖н and (НАТО] or ╢вроатлант)"

Ретроспективный период исследования представлял весь 2005 год, т.е. 365 суток (N = 365). В результате поиска по приведенному запросу было найдено 54933 релевантных документа. На основании обработки этих данных была получена полная картина экспериментальных данных - временной ряд за указанный период. Для этого временного ряда были вычислены стандартное отклонение (S=127.62) и .размах. (R = 7676.15). Одновременно, с помощью механизма формирования основных сюжетов, который входит в состав системы InfoStream, были определены основные события, повлиявшие на возникновение пиковых значений временного ряда.

Для значения N = 365 был вычислен показатель Херста, который оказался равным 0,79, что свидетельствует о большом уровне персистентности всего временного ряда. Кроме того, были выполнены расчеты показателей Херста для всех значений N, начиная с 10 (Рис. 2).

Интерпретация результатов

Изучение такой характеристики, как показатель Херста позволяет прогнозировать динамику информационных потоков, сообщения из которых отражают процессы, происходящие в реальном мире.

В результате эксперимента было подтверждено наличие высокого уровня статистической корреляции в информационных потоках на продолжительных временных интервалах. В частности, на рассмотренном примере показана высокая персистентность процесса, что свидетельствует об общей тенденции увеличения публикации определенной тематики, периодическое появление пиков, связанных, как правило, с общими переговорными мероприятиями: форумами, конференциями и встречами руководства государства с функционерами НАТО.

Естественно, описанные результаты исследований могут использоваться не только для приведенного тематического информационного канала. Своего исследования ждут кластеры, порождаемые в соответствии и с другими принципами.

Заключение

Любая технология, предназначенная для осуществления аналитических исследований даже с незначительным элементом прогнозирования, неизбежно должна быть способна к экстраполяции полученных зависимостей пусть даже на небольшие промежутки времени.

Как известно, задача экстраполяции опытных данных неизмеримо труднее задачи интерполяции, для которой разработано большое количество методов, обладающих вполне удовлетворительной точностью. Напротив, методы экстраполяции, как правило, приходится разрабатывать в каждом конкретном случае с явным учетом специфики, причем для экстраполяции необходимо задать значительно большее число опорных точек, чем в случае интерполяции. По существу эта проблема, так или иначе возникает всегда, даже когда исследования ведутся без непосредственного применения математических методов.

Для получения большого объема данных, необходимых для прогнозирования, исследовательская организация может создавать и собственные ретроспективные базы данных, но, как правило, полнофункциональные системы такого класса достаточно сложны технически, и не всегда их создание окупается экономически. Требуемые возможности профессионально и качественно представляют специальные службы, поддерживающие технологии и системы контент-мониторинга. В случае отсутствия доступа к таким системам аналитикам, как правило, приходится искать другие пути решения данной проблемы. К сожалению, при этом часто приходится расплачиваться точностью прогнозов.

Вместе с тем для принятия любых серьезных решений необходимо использование комплексных систем, которые разрешают компоновать и обобщать полученную из разных источников информацию относительно объекта исследований [8].

Список литературы

  1. Фурашев В.М., Ланде Д.В., Григор'╓в О.М., Фурашев О.В. Електронне ╕нформац╕йне сусп╕льство Укра╖ни: погляд у сьогодення ╕ майбутн╓: Монограф╕я. . К.: Преса Укра╖ни, 2005. . 166 с.
  2. С.М. Брайчевський, Д.В. Ландэ. Современные информационные потоки: актуальная проблематика // Научно-техническая информация. Сер. 1, 2005. - . 11. - С. 21-33
  3. Ланде Д.В., Фурашев В.М., Григор.╓в О.М. Програмно-апаратний комплекс ╕нформац╕йно╖ п╕дтримки прийняття р╕шень: Науково-методичний пос╕бник. - Ки╖в: ╤нжин╕ринг, 2006. . 48 с.
  4. Fractal geometry of information space as represented by cocitation clustering / Van Raan A. F. J. // Scientometrics. -1991. . Vol. 20, . 3. . Р. 439-449.
  5. Федер Е. Фракталы / -М.: Мир, 1991, -254 с.
  6. Иванов С.А. Стохастические фракталы в Информатике // Научно-техническая информация. Сер. 2, 2002. - . 8. - С. 7-18
  7. Статистический анализ документальных информационных потоков. / Иванов С.А., Круковская Н.В. // Научно-техническая информация. Информ. Процессы и системы. Сер. 2. . 2004. - . 2. . С. 11-14.
  8. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. - М.: "Вильямс", 2005. - 272 с.

 Статьи автора, обобщенные в книге 

Поле боя - семантика
Сегодня информационные ресурсы Сети составляют свыше десятка миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Естественно, для того, чтобы найти необходимую информацию и этой крупнейшей распределенной полнотекстовой базе данных необходимо использовать самые мощные ИПС. Такие системы существуют и конкурируют друг с другом на современном рынке информационных технологий.
Подробнее >>

Text Mining
Попытки анализа больших объемов неструктурированных или слабо структурированных данных очень часто усложняют процесс принятия решений. Если широкий спектр поисковых систем достаточно легко справляется с "простым" полнотекстовым поиском, то для подобного анализа нужны технологии совсем другого типа, представленные системами добычи знаний.
Подробнее >>

Новостной Интернет
Для решения задачи синдикации новостей было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary, хотя изначально он назывался RDF Site Summary. Смысл всех этих аббревиатур заключается в простом способе обобщения и распределения информационного наполнения Web-сайтов - синдикации контента.
Подробнее >>

Система InfoStream®

При непосредственном участии автора и под его научным руководством в ElVisti создана система InfoStream®, с помощью которой охватываются новости из тысяч Web-сайтов, осуществляется их обработка и обобщение. Сервисы, построенные на основе Infostream, обеспечивают пользователям одновременный доступа в режиме поиска к информации из многих Web-сайтов, предоставляют возможность смысловой обработки и, вследствие этого, минимизацию усилий на получение необходимых данных из Интернет.

Методическое пособие


P e к л а м a: