Ландэ Д.В., Жигало В. В. Подход к созданию многоязычных параллельных корпусов веб-публикаций.


// Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог 2009" (Бекасово, 27-31 мая 2009 г.). Вып. 8 (15). - М.: РГГУ, 2009. - C. 278-283.

Описан метод построения двуязычного параллельного корпуса веб-публикаций, базирующийся на использовании частотных морфологических словарей, а также эмпирико-статистических алгоритмов. Предложен подход к преодолению омонимии в родственных флективных языках, позволяющий отбирать наиболее частотные нормальные формы. Алгоритм реализован в качестве программного комплекса и интегрирован в систему контент-мониторинга InfoStream. На основе предложенного метода был создан двуязычный русско-украинский параллельный корпус текстов веб-публикаций объемом свыше 450 000 пар документов.

Текст статьи в формате PDF


P e к л а м a: создание сайтов в запорожье качество . Незабываемый отдых во Франции от btourt.com. туры во францию советуем приобрести у мастеров . Недорогие Диваны - мягкая мебель. Мягкая мебель в новом каталоге от производителя. . Реклама в Интернете: наружная реклама. Реклама на улицах Киева. . Отличный отдых в Карпатах. Отдых в Трускавце недорого. Отдых в Трускавце в частном секторе.