Вiсник державно╖ Служби Укра╖ни, N 2'2002

Мон╕торинг д╕яльност╕ орган╕в виконавчо╖ влади ╕з застосування комп'ютерно╖ системи контент-анал╕зу електронних ЗМ╤
Г. Лел╕ков,
канд. юрид. наук, доцент,
Начальник Головного управл╕ння
державно╖ служби Укра╖ни,
заслужений юрист Укра╖ни,
В. Сороко,
канд. техн. наук, доцент,
начальник науково-анал╕тичного управл╕ння
Головного управл╕ння державно╖ служби Укра╖ни,
О. Григор'╓в,
директор ╤нформац╕йного центру
"Електронн╕ в╕ст╕",
Д. Ланде,
канд. техн. наук,
заступник директора ╤нформац╕йного
центру "Електронн╕ в╕ст╕"

Прийняття р╕шень з управл╕ння будь-якою системою, ╕ особливо такою, як система державно╖ служби кра╖ни, ма╓ спиратися на ╕нформац╕ю, яка да╓ комплексне уявлення про поточний стан системи ╕ ╖╖ реакц╕ю на зовн╕шн╕ збудники та орган╕зац╕йно-структурн╕ перетворення.

Для анал╕зу ╕ оц╕нки стану складових системи державно╖ служби, перел╕к ╕ зм╕ст яких наведено в [1], застосовуються дан╕ статистично╖ зв╕тност╕ щодо корпусу державних службовц╕в (форма N 9-ДС), одномоментн╕ зр╕зи, передбачен╕ певними нормативно-прововими ╕ орган╕зац╕йно-розпорядчими документами щодо кадрового резерву, потреб у п╕дготовц╕ ╕ п╕двищенн╕ квал╕ф╕кац╕╖ державних службовц╕в тощо.

Заходами щодо анал╕зу стану роботи з кадровим ресурсом державного управл╕ння ╓: планов╕ перев╕рки в╕дпов╕дно╖ сфери д╕яльност╕ орган╕в виконавчо╖ влади; комп'ютерний обл╕к персональних даних про ос╕б, що займають посади I-III категор╕й державних службовц╕в; опитування консультативно-навчальн╕ сем╕нари ╕з контингентом слухач╕в ╤нституту п╕двищення квал╕ф╕кац╕╖ кер╕вних кадр╕в Укра╖нсько╖ Академ╕╖ державного управл╕ння при Президентов╕ Укра╖ни.

Значною м╕рою вивчення роботи орган╕в виконавчо╖ влади в сфер╕ державно╖ служби пов'язане з удосконаленням нормативно-правово╖ бази державно╖ служби, передбаченим положенням положеннями Стратег╕╖ реформування системи державно╖ служби в Укра╖н╕, затверджено╖ Указом Президента Укра╖ни в╕д 14 кв╕тня 2000 року N 599.

Ус╕ ц╕ заходи складають основу для орган╕зац╕╖ ╕ забезпечення процесу управл╕ння державною службою.

Зрозум╕ло, що атрибути проходження державно╖ служби як конкретною особою, так ╕ окремим апаратом органу виконавчо╖ влади певним чином пов'язан╕ з як╕стю функц╕онування системи державного управл╕ння, ╖╖ результативн╕стю ╕, зрештою, з ефективн╕стю д╕яльност╕ органу в ц╕лому.

Розд╕лом "Оптим╕зац╕я управл╕ння державною службою" зазначено╖ вище Стратег╕╖ передбачено, зокрема, зм╕нити протягом 2000-2004 рок╕в характер д╕яльност╕ кадрових служб орган╕в виконавчо╖ влади, зосередивши ╖х увагу на анал╕тичн╕й ╕ орган╕зац╕йн╕й робот╕ з кадрового менеджменту, анал╕з╕ ефективност╕ в╕дпов╕дного органу, його структурних п╕дрозд╕л╕в, профес╕йн╕й д╕яльност╕ кожного державного службовця, прогнозуванн╕ розвитку персоналу, плануванн╕ кар'╓ри державних службовц╕в, забезпеченн╕ ╖х навчання та мон╕торингу ефективност╕ роботи.

Таким чином, серед напрям╕в удосконалення кадрово╖ роботи ми бачимо пряме посилання на необх╕дн╕сть запровадження потужного сучасного ╕нструменту для отримання "зворотного зв'язку" - мон╕торингу д╕яльност╕ як апарату органу в ц╕лому, так ╕ його окремих прац╕вник╕в.

Необх╕дн╕сть запровадження нових механ╕зм╕в досл╕дження в сфер╕ державно╖ служби викликала потребу у створенн╕ в╕дпов╕дних механ╕зм╕в: методики ╕ засоб╕в мон╕торингу д╕яльност╕ орган╕в виконавчо╖ влади. Побудову зазначених механ╕зм╕в було передбачено заходами щодо реал╕зац╕╖ стратег╕╖ реформування системи державно╖ служби в Укра╖н╕ на 2000-2001 роки, затвердженими Указом Президента Укра╖ни в╕д 26 липня 2000 року N 925.

Досл╕дження ╕ в╕дпов╕дн╕ розробки було виконано в межах програми удосконалення ╓дино╖ державно╖ комп'ютерно╖ системи "Кадри" та розд╕лу "╤нформатизац╕я стратег╕чних напрям╕в державност╕, безпеки та оборони" Нац╕онально╖ програми ╕нформатизац╕╖.

Розглядаючи можлив╕ напрями досл╕дження у сфер╕ мон╕торингу д╕яльност╕, було запропоновано виходити з таких масив╕в даних, як╕ або ╕снують, або можуть бути отриман╕ в межах чинного правового поля та перспективних план╕в його розвитку. З урахуванням встановленого обмеження розглянуто ╕ реал╕зовано п╕дходи до анал╕зу д╕яльност╕ орган╕в виконавчо╖ влади на основ╕ даних: статистично╖ зв╕тност╕, яка вже впроваджена; функц╕онального досл╕дження д╕яльност╕ органу з урахуванням досв╕ду роботи, проведено╖ органами державно╖ влади на виконання Указ╕в Президента Укра╖ни в╕д 11 лютого 2000 року N 208 "Про п╕двищення ефективност╕ системи державно╖ служби" та в╕д 29 травня 2001 року N 345 "Про чергов╕ заходи щодо дальшого зд╕йснення адм╕н╕стративно╖ реформи в Укра╖н╕"; щодо проблемних питань, як╕ висв╕тлюються в документах, листах, зверненнях, що надходять до Головдержслужби Укра╖ни; матер╕ал╕в засоб╕в масово╖ ╕нформац╕╖ (ЗМ╤) з питань д╕яльност╕ орган╕в виконавчо╖ влади.

Цю статтю присвячено розгляду особливостей орган╕зац╕╖ мон╕торингу д╕яльност╕ орган╕в виконавчо╖ влади, ╕нформац╕ю про як╕ подано в електронних ЗМ╤, а саме в ╤нтернет-простор╕.

╤нтернет сьогодн╕ - це мед╕асередовище, в якому ╕снують електронн╕ клони звичайних ЗМ╤ (газет, журнал╕в тощо) ╕, що найголовн╕ше, утворено ╕нтернет-ЗМ╤ (е-media), зовн╕шньо оформлен╕ як ╕нформац╕йн╕ стор╕нки - сайти. На деяких сайтах ╕нформац╕я оновлю╓ться безперервно. У цьому розум╕нн╕ контент-мон╕торинг (в╕д англ. content - зм╕ст) сайта означа╓ анал╕з цого наповнення.

Сьогодн╕ контент-мон╕торинг ╕нтернет-ЗМ╤ можна виконати т╕льки з урахуванням певних обмежень, адже к╕льк╕сть новинних пов╕домлень, що публ╕куються в мереж╕ ╤нтернет в усьому св╕т╕, перевищу╓ 1 000 000 на добу. Найб╕льш╕ мережн╕ ╕нтегратори новин обробляють щодоби десятки тисяч пов╕домлень. Ситуац╕я р╕зкого зб╕льшення темп╕в виробництва ╕нформац╕╖ обумовила виникнення низки таких проблем, як:

  • непропорц╕йний р╕ст ╕нформац╕йного шуму через слабку структурован╕сть ╕нформац╕╖;
  • багаторазове дублювання ╕нформац╕╖, тобто публ╕кац╕я одного й того ж пов╕домлення в р╕зних мед╕йних виданнях;
  • поява несанкц╕онованих (паразитних) "додатк╕в", наприклад, реклами.

Анал╕з ╕ узагальнення великих динам╕чних ╕нформац╕йних масив╕в, що безупинно генеруються у мереж╕, вимага╓ як╕сно нових п╕дход╕в. Виникла необх╕дн╕сть створення метод╕в мон╕торингу ╕нформац╕йних ресурс╕в, т╕сно пов'язаних з методолог╕╓ю контент-анал╕зу. Контент-мон╕торинг, у нашому розум╕нн╕, це зм╕стовний анал╕з ╕нформац╕йних поток╕в з метою одержання необх╕дних як╕сних ╕ к╕льк╕сних зр╕з╕в, що, на в╕дм╕ну в╕д контент-анал╕зу, зд╕йсню╓ться пост╕йно у час╕.

До теоретичних ╕ методолог╕чних передумов систем контент-мон╕торингу можна в╕днести появу ╕ розвиток: теоретичних основ контент-анал╕зу, теор╕╖ "розкопок тексту" (Data Mining); метод╕в математично╖ л╕нгв╕стики; теор╕╖ кластерного анал╕зу.

Розроблена верс╕я системи контент-мон╕торингу вир╕шу╓ задач╕ формування тематичних ╕нформац╕йних канал╕в, дайджест╕в, таблиць вза╓мозв'язк╕в понять (як╕ виявлен╕ у спор╕днених публ╕кац╕ях) ╕ г╕стограм розпод╕лу "вагових" значень окремих понять.

Розроблено основн╕ компоненти технолог╕╖, що забезпечують:

  • автоматичне сканування доступних ╕нформац╕йних ресурс╕в мереж╕ ╤нтернет ╕ корпоративних ╕нтранет-мереж;
  • нормал╕зац╕ю ╕нформац╕╖, приведення ╖╖ до ╓диного формату та автоматичну класиф╕кац╕ю, побудову тематичних ╕нформац╕йних канал╕в;
  • автоматичне створення оперативних ╕ ретроспективних баз даних та доступ до них у д╕алоговому режим╕;
  • автоматичну побудову дайджест╕в, що в╕дображують найб╕льш вагом╕ (у статистичному розум╕нн╕) под╕╖;
  • побудову таблиць вза╓мозв'язк╕в ╕ г╕стограм розпод╕лу "вагових" значень понять, обумовлених складними лог╕чними виразами мови запит╕в.

Ця система контент-мон╕торингу базу╓ться на статистичних методах контент-анал╕зу, що останн╕м часом одержали розвиток в усьому св╕т╕. Так, можна в╕дзначити досить ц╕кав╕ рос╕йськ╕ проекти "Ключ╕ в╕д тексту" М. Г. Крейнеса, "Зброя анал╕тика" компан╕╖ "╤нвента", проект "ВААЛ" та ╕нш╕.

У розробленому проект╕ системи контент-мон╕торингу, який реал╕зовано ╤нформац╕йним центром "Електронн╕ в╕ст╕", побудова таблиць вза╓мозв'язк╕в ╕ г╕стограм розпод╕лу "вагових" значень понять базу╓ться на мовних засобах ╕нформац╕йно-пошуково╖ системи (╤ПС), а також методах статистики ╕ кластерного анал╕зу. Мова визначення семантично╖ наповненост╕ понять буду╓ться на основ╕ мови запит╕в ╤ПС. Запит для визначення семантики поняття склада╓ться з двох частин - зм╕стовно╖ частини (наприклад, ключових сл╕в ╕ словосполучень, що ╕дентиф╕куються як сфера д╕яльност╕ певного органу влади) ╕ як╕сно╖ ознаки (наприклад, "ставлення", "враження", "кл╕мат", "вплив" тощо).

При цьому характеристика як╕сно╖ ознаки ("вдало", "в╕дм╕нно", "недостатньо" тощо) контекстуально пов'язу╓ться мовою ╕з певною як╕сною ознакою (вар╕ант прив'язки подано в таблиц╕).

ТАБЛИЦЯ ПРИВ'ЯЗКИ ОЗНАК Д╤ЯЛЬНОСТ╤ ДО ╥Х ПОЗИТИВНИХ ХАРАКТЕРИСТИК

╤стотним при визначенн╕ семантики поняття ╓ контекстуальна близьк╕сть у документ╕ зм╕стовно╖ частини ╕ як╕сно╖ ознаки. Як показу╓ практика, це р╕шення в б╕льшост╕ випадк╕в ╓ досить ефективним.

Очевидно, що для визначення семантики понять не п╕дходить по╓днання двох частин запиту звичайним оператором "╤" (AND), що забезпечу╓ пошук у межах документа. Необх╕дною умовою релевантност╕ результату ╓ використання вар╕анта оператора кон'юнкц╕╖, що забезпечу╓ пошук у межах одного абзацу або одного речення.

Для реал╕зац╕╖ цих можливостей документ вх╕дного потоку розбива╓ться на фрагменти (абзаци або речення), що пот╕м сам╕ розглядаються як окрем╕ документи ╕ класиф╕куються засобами ╤ПС. П╕сля завершення процесу автоматично╖ класиф╕кац╕╖ з фрагмент╕в знову складаються документи, яким приписуються згрупован╕ класиф╕кац╕йн╕ ознаки.

Таблиця вза╓мозв'язк╕в понять, яка буду╓ться як статистичний зв╕т, що в╕дбива╓ близьк╕сть (сп╕льну присутн╕сть у публ╕кац╕ях) окремих понять реального св╕ту, - це симетрична матриця A={aij}, де aij - коеф╕ц╕╓нти вза╓мозв'язку пари понять i та j. Коеф╕ц╕╓нт aii в╕дпов╕да╓ к╕лькост╕ документ╕в вх╕дного ╕нформац╕йного потоку, що включають поняття (чи терм╕ни словосполучення, представлен╕ мовою запит╕в, що в╕дпов╕дають поняттю) i, а коеф╕ц╕╓нт aij - к╕лькост╕ документ╕в у вх╕дному потоц╕, що водночас в╕дпов╕дають поняттям i та j.

При цьому для перекомпоновки понять з метою виявлення блок╕в - множин найб╕льш вза╓мозалежних понять - застосову╓ться алгоритм кластерного анал╕зу. Наприклад, для вид╕лення двох таких блок╕в необх╕дно вид╕лити два поняття-полюси (наприклад, як╕ в╕дпов╕дають ╕ндексам k ╕ l), найб╕льш т╕сно пов'язаних з ╕ншими поняттями, але найменш пов'язаних м╕ж собою.

Формально ц╕ умови можна записати у такий спос╕б:

S aik -  akk --> max               S ail  -  all --> max                akl --> min, k =\= l

╤нш╕ поняття (наприклад, поняття ╕) в╕дносяться до блоку k, якщо aik > ail. ╤накше, поняття ╕ буде в╕днесено до блоку l.

Для в╕дображення таблиц╕ вза╓мозв'язк╕в понять окрем╕ елементи матриц╕ А подаються р╕зними в╕дт╕нками с╕рого кольору (залежно в╕д значень коеф╕ц╕╓нт╕в вза╓мозв'язку aij), як це наведено на рис.1.

Рис.1. Д╕аграма вза╓мозв'язку понять (полюс: д╕яльн╕сть)</br>
Оброблено 123 статт╕

Рис.1. Д╕аграма вза╓мозв'язку понять (полюс: д╕яльн╕сть)
Оброблено 123 статт╕

На рис.2 подано г╕стограму розпод╕лу понять, отриману на основ╕ анал╕зу характеристик д╕яльност╕ органу.

Ще одна базова процедура системи контент-мон╕торингу - це автоматичне формування дайджест╕в. Для дайджесту в╕дбираються документи, у яких найб╕льш явно в╕дбит╕ тенденц╕╖ усього вх╕дного потоку. Отже, так╕ дайджести повинн╕ найб╕льшою м╕рою в╕дпов╕дати ╕нформац╕йним потребам користувача, за запитом якого форму╓ться цей вх╕дний ╕нформац╕йний пот╕к.

Для формування дайджест╕в використовуються статистичн╕ алгоритми, заснован╕ на "ваговому" частотному п╕дход╕.

На першому етап╕ формування дайджесту на п╕дстав╕ сл╕в, що входять у вх╕дний ╕нформац╕йний пот╕к, буду╓ться словник понять. При цьому кожному з╕ сл╕в припису╓ться деякий ваговий коеф╕ц╕╓нт, що визнача╓ться як результат обл╕ку дек╕лькох складових: частоти зустр╕ч╕ цього поняття, тематичного словника, визначеного на основ╕ вх╕дного ╕нформац╕йного потоку, "плюса-словника", що включа╓ найб╕льш важливу лексику загального призначення.

Для формування дайджест╕в посл╕довно викону╓ться вид╕лення вс╕х сл╕в вх╕дного потоку документ╕в ╕ побудова з них наскр╕зного словникового масиву; нормал╕зац╕я сл╕в за допомогою засоб╕в автоматичного морфолог╕чного анал╕зу; сортування вс╕х сл╕в словникового масиву ╕ припис ╖м ваги - частоти зустр╕ч╕.

Наступним кроком ╓ вилучення з╕ словникового масиву незначних сл╕в. Для цього використовуються спец╕альн╕ програмн╕ засоби, заснован╕ на використанн╕ "стоп-словника".

В╕дпов╕дно ╕з запитом в╕дбува╓ться виб╕р тематичного словника ╕ наступне коригування словникового масиву з урахуванням тематичного словника - тобто коригування "ваги" окремих сл╕в, що входять у тематичний словник. За таким самим алгоритмом в╕дбува╓ться коригування словникового масиву з обл╕ком "плюс-словника".

Останн╕й крок формування словника системи поляга╓ у вибор╕ N (у даний час дор╕вню╓ 100) самих "вагомих" сл╕в з╕ словникового масиву.

Виб╕р документ╕в для побудови дайджесту реал╕зу╓ться з урахуванням "ваги" кожного документа, що визнача╓ться як нормована за довжиною документа сума "ваги" окремих сл╕в, що входять у цей документ. Етап вибору документ╕в для дайджесту склада╓ться з таких крок╕в, як визначення "ваги" кожного документа, сортування вх╕дного потоку документ╕в за "вагою", визначення смислових дубл╕в документ╕в за статистичним критер╕╓м, в╕дкидання документ╕в, непридатних для побудови дайджест╕в (за допомогою таблиць "стоп-адрес" ╕ "неприпустимих тип╕в документ╕в"), а також статистично зм╕стових дубл╕в. Останн╕й крок етапу вибору документ╕в для формування дайджесту поляга╓ у вибор╕ М (на даний момент дор╕вню╓ 10) самих "вагомих" документ╕в з в╕дсортованого ╕ в╕дф╕льтрованого на попередн╕х кроках масиву.

Статистичний алгоритм визначення документ╕в, як╕ дублюються, ╕з вх╕дного потоку поляга╓ в обрахуванн╕ ланцюжк╕в ключових сл╕в ╕ частот ╖хньо╖ зустр╕ч╕ для окремих документ╕в та наступному пор╕внянн╕ м╕ж собою цих ланцюжк╕в сл╕в для вс╕х документ╕в вх╕дного потоку. В ╕снуюч╕й верс╕╖ системи к╕льк╕сть ключових сл╕в у ланцюжку ╕ коеф╕ц╕╓нт близькост╕ цих ланцюжк╕в може встановлювати адм╕н╕стратор системи.

Останн╕й етап формування дайджесту поляга╓ у вид╕ленн╕ з М в╕д╕браних документ╕в найб╕льш значущих пропозиц╕й ╕ побудова з них безпосередньо тексту дайджесту. Для цього за кожним з М в╕д╕браних документ╕в буду╓ться словник, що коригу╓ться за "плюс-словником" ╕ тематичним словником, саме так, як ╕ весь словник системи. Пот╕м в╕дкидаються пропозиц╕╖, що не в╕дпов╕дають емп╕рично обумовленим семантичним правилам, ╕ зважуються вс╕ пропозиц╕╖, що залишилися. Кожний з М в╕д╕браних на попередньому етап╕ документ╕в присутн╕й у дайджест╕ не б╕льш н╕ж К найб╕льш вагомими пропозиц╕ями (при цьому обов'язковим ╓ входження заголовка ╕ першо╖ пропозиц╕╖). П╕сля цього автоматично форму╓ться г╕пертекстове представлення дайджесту, його зм╕сту ╕ г╕перпосилання на вих╕дн╕ документи у вх╕дному ╕нформац╕йному масив╕.

При цьому важливо те, що сформований дайджест, який можна розглядати як самост╕йний документ, ма╓ г╕пертекстов╕ посилання на документи-першоджерела в ╤нтернет╕. Для перегляду також доступний весь вх╕дний тематичний ╕нформац╕йний масив.

Наведена вище процедура забезпечу╓ формування дайджесту, що в╕дбива╓ основн╕ тенденц╕╖, представлен╕ у вх╕дному ╕нформац╕йному потоц╕. Разом з тим ма╓ сенс формування дайджесту, який в╕дбива╓ поряд з головною темою дек╕лька ╕нших значущих тенденц╕й, не врахованих у дайджестах першого типу. Дайджест такого типу також можна побудувати, базуючись на технолог╕чних р╕шеннях, що застосовуються при першому п╕дход╕, а саме передбачивши в механ╕зм╕ реал╕зац╕╖ наступний алгоритм:

  • 1 крок: побудова дайджесту, що в╕дбива╓ основну тенденц╕ю (дайджест першого типу);
  • 2 крок: видалення з вх╕дного ╕нформац╕йного потоку документ╕в, що в╕дпов╕дають визначеним на попередньому кроц╕ тенденц╕ям;
  • 3 крок: побудова дайджесту, що в╕дбива╓ основну тенденц╕ю на баз╕ модиф╕кованого на 2-му кроц╕ ╕нформац╕йного потоку;
  • 4 крок: об'╓днання отриманих дайджест╕в в один;
  • 5 крок: у раз╕ необх╕дност╕ (виходячи з необх╕дних обсяг╕в) викону╓ться перех╕д до кроку 2.

У пор╕внянн╕ з традиц╕йними п╕дходами впровадження технолог╕╖ контент-мон╕торингу забезпечу╓ так╕ переваги, як: одержання оперативних к╕льк╕сних ╕ як╕сних анал╕тичних зр╕з╕в у м╕ру появи ╕нформац╕╖ в ╤нтернет; включення робочих м╕сць анал╕тик╕в у динам╕чний ╕нформац╕йний прост╕р; сво╓часне надання необх╕дно╖ проф╕льно╖ ╕нформац╕╖; забезпечення ц╕леспрямовано╖ роботи орган╕в щодо усунення недол╕к╕в; конф╕денц╕йн╕сть.

Завдяки зазначеним характеристикам ╕нструментальних засоб╕в роботи з ╕нформац╕йними потоками та таких фактор╕в ╖х застосування, як оперативн╕сть, повнота ╕ релевантн╕сть, а також наявност╕ ╓диного захищеного ╕нтерфейсу, технолог╕я контент-мон╕торингу може сприяти значному п╕двищенню якост╕ якост╕ ╕нформац╕йно-анал╕тично╖ роботи в ╕нтересах системи державно╖ служби.

1. Дьом╕н О., Лел╕ков Г., Сороко В. Державна кадрова пол╕тика: система роботи з кадрами державно╖ служби // В╕сник державно╖ служби в Укра╖н╕. - 2001. - N 2. - С. 65-84.


P e к л а м a: [an error occurred while processing this directive]