Комп’ютерно-лінгвістичні технології смислової інтерпретації текстової інформації
Розроблена технологія комп’ютерно-лінгвістичної обробки текстів на природній мові, яка базується на створених потужних лінгвістичних базах даних та евристичних алгоритмах смислової обробки текстів
Розроблена технологія комп’ютерно-лінгвістичної обробки текстів на природній мові, яка базується на створених потужних лінгвістичних базах даних та евристичних алгоритмах смислової обробки текстів
Система моніторингу активності користувачів в соціальних мережах
Для мережі Twitter
(На прикладі передвиборчої активності)
Функціональність системи
Призначена для збору інформації про хід соціальних процесів та явищ через їх відображення в соціальній мережі Twitter.
Система здатна представляти зібрані дані з різним ступенем деталізації.
Система призначена для роботи в режимі 24/7, що дозволяє їй отримувати нові повідомлення користувачів за вказаними тематиками практично одночасно з їх появою в самі соціальній мережі (в більшості випадків затримка становить декілька секунд)
Активність за добу (або за інший період)
Функціональність системи в подробицях
Збір інформації в системі відбувається за допомогою ключових слів та фраз.
Наразі система містить близько 300 ключів за тематикою української політики.
Набір ключів створено та сконфігуровано для отримання найбільш релевантних результатів з російськомовних та україномовних повідомлень, для деяких об’єктів система також містить англомовні ключі (у випадках коли об’єкт часто згадується в англомовних повідомленнях)
Процес роботи системи в подробицях
Раз на годину (частота запуску конфігурується) в системі стартує процес розбору та аналізу нових даних. Даний процес визначає ступінь релевантності отриманої інформації заданим ключам, та співставляє з кожним повідомленням список ключових слів в нормальній формі.
Отримані дані аналізуються за допомогою sql-запитів та періодично викладаються на сторінку системи в Google Docs. Періодичність та детальність викладу даних можна змінювати.
В системі наявний модуль кластеризації, що застосовується для збору тематично схожих текстів в окремі групи та визначення найбільш актуальних тем за певний проміжок часу
Терміни впровадження
На прохання замовника, можна реалізувати:
Як результат застосування даної технології пропонуються такі системи:
Засоби автоматичного реферування дозволяють розбити текст на множину семантично цілісних фрагментів, які відображають основні теми документу, і виділити найінформативніші.
Функція реферування може використовуватися для:
побудови тематичних рефератів за темами документу;
Система покращення якості машинного перекладу VitaminE
Система “VitaminE” за допомогою семантичного аналізу смислового контексту речення вибирає з можливих альтернатив коректний варіант перекладу, чим значно покращує якість тексту машинного перекладу.
В процесі створення системи “VitaminE” був розроблений ряд ефективних алгоритмів білінгвістичного асоціативно-семантичного аналізу, що знаходять міру семантичної близькості між словами - семантичними об’єктами.
Обробляючи текст процедури семантичного аналізу, взаємодіють з розробленою білінгвістичною семантичною базою знань UkrWordNet.
Семантичні алгоритми аналізу вирішують смислові неоднозначності перекладу і вирішують задачу вибору вірної альтернативи перекладу.
Система покращення якості машинного перекладу VitaminE
Система смислового пошуку текстів SemanticSearch
В ході виконання досліджень розроблено систему семантичного пошуку в інтернет.
Система реалізована у вигляді метапошукової машини, що здатна працювати з результатами популярних інтернет-машин.
Поточна версія виконана у якості надбудови над пошуковою машиною Google.
Система призначена для надання користувачу можливості семантизації пошукових запитів, що дозволяє значно збільшити точність пошуку в інтернет.