Комп’ютерно-лінгвістичні технології смислової інтерпретації текстової інформації



Дата конвертації30.05.2016
Розмір445 b.



Розроблена технологія комп’ютерно-лінгвістичної обробки текстів на природній мові, яка базується на створених потужних лінгвістичних базах даних та евристичних алгоритмах смислової обробки текстів

  • Розроблена технологія комп’ютерно-лінгвістичної обробки текстів на природній мові, яка базується на створених потужних лінгвістичних базах даних та евристичних алгоритмах смислової обробки текстів



Система моніторингу активності користувачів в соціальних мережах

  • Для мережі Twitter

  • (На прикладі передвиборчої активності)



Функціональність системи

  • Призначена для збору інформації про хід соціальних процесів та явищ через їх відображення в соціальній мережі Twitter.

  • Система здатна представляти зібрані дані з різним ступенем деталізації.

  • Зібрані системою статистичні дані призначені для подальшої обробки експертами



Продуктивність системи



Робота системи

  • Система призначена для роботи в режимі 24/7, що дозволяє їй отримувати нові повідомлення користувачів за вказаними тематиками практично одночасно з їх появою в самі соціальній мережі (в більшості випадків затримка становить декілька секунд)





Активність за добу (або за інший період)



Функціональність системи в подробицях

  • Збір інформації в системі відбувається за допомогою ключових слів та фраз.

  • Наразі система містить близько 300 ключів за тематикою української політики.

  • Набір ключів створено та сконфігуровано для отримання найбільш релевантних результатів з російськомовних та україномовних повідомлень, для деяких об’єктів система також містить англомовні ключі (у випадках коли об’єкт часто згадується в англомовних повідомленнях)



Процес роботи системи в подробицях

  • Раз на годину (частота запуску конфігурується) в системі стартує процес розбору та аналізу нових даних. Даний процес визначає ступінь релевантності отриманої інформації заданим ключам, та співставляє з кожним повідомленням список ключових слів в нормальній формі.

  • Отримані дані аналізуються за допомогою sql-запитів та періодично викладаються на сторінку системи в Google Docs. Періодичність та детальність викладу даних можна змінювати.

  • В системі наявний модуль кластеризації, що застосовується для збору тематично схожих текстів в окремі групи та визначення найбільш актуальних тем за певний проміжок часу



Терміни впровадження



На прохання замовника, можна реалізувати:



Як результат застосування даної технології пропонуються такі системи:

  • Cистема “Referator”

  • Система “VitaminЕ”

  • Система смислового пошуку SemanticSearch

  • Система визначення “запозичених” фрагментів тексту Antiplagiat



Система реферування та індексації Referator

  • Засоби автоматичного реферування дозволяють розбити текст на множину семантично цілісних фрагментів, які відображають основні теми документу, і виділити найінформативніші.

  • Функція реферування може використовуватися для:

  • побудови тематичних рефератів за темами документу;

  • побудови загального реферату за ключовими темами;

  • побудови рефератів за темою, заданою еталонними текстами;

  • тематичного аналізу текстових потоків.



Система реферування та індексації Referator



Групування огляду новин системою мультиреферування Referator+



Видалення надлишкових текстів або надлишкових фрагментів системою мультиреферування



Огляд, створений системою мультиреферування



Система мультиреферування



Система покращення якості машинного перекладу VitaminE

  • Система “VitaminE” за допомогою семантичного аналізу смислового контексту речення вибирає з можливих альтернатив коректний варіант перекладу, чим значно покращує якість тексту машинного перекладу.

  • В процесі створення системи “VitaminE” був розроблений ряд ефективних алгоритмів білінгвістичного асоціативно-семантичного аналізу, що знаходять міру семантичної близькості між словами - семантичними об’єктами.

  • Обробляючи текст процедури семантичного аналізу, взаємодіють з розробленою білінгвістичною семантичною базою знань UkrWordNet.

  • Семантичні алгоритми аналізу вирішують смислові неоднозначності перекладу і вирішують задачу вибору вірної альтернативи перекладу.



Система покращення якості машинного перекладу VitaminE



Система смислового пошуку текстів SemanticSearch

  • В ході виконання досліджень розроблено систему семантичного пошуку в інтернет.

  • Система реалізована у вигляді метапошукової машини, що здатна працювати з результатами популярних інтернет-машин.

  • Поточна версія виконана у якості надбудови над пошуковою машиною Google.

  • Система призначена для надання користувачу можливості семантизації пошукових запитів, що дозволяє значно збільшити точність пошуку в інтернет.

  • Створена реалізація надає користувачу простий інтерфейс для уточнення пошукового запиту

  • виконує керування пошуковою машиною Google для визначення найбільш релевантних запиту користувача документів.



Покращення пошуку в незнайомій предметній області за допомогою системи “Semantic Search”



Antiplagiat - Система виявлення запозичених фрагментів тексту з пошуком першоджерела знайдених фрагментів в базі даних



Наш сайт

  • http://lingvoworks.org.ua



Дякуємо за увагу




База даних захищена авторським правом ©pres.in.ua 2016
звернутися до адміністрації

    Головна сторінка