Інформаційна технологія виділення та обробки знань у cds/isis-сумісних базах даних Шерепа Тетяна Анатоліївна, м н. с. Нбув



Дата конвертації04.06.2016
Розмір445 b.


Інформаційна технологія виділення та обробки знань у CDS/ISIS-сумісних базах даних


Шляхи розвитку інформаційного суспільства

  • Сучасному суспільству притаманний «інформаційний вибух», що постійно наростає.

  • Лише у 2005 р. світове співтовариство виробить понад 20000 петабайтів (1 Пбайт = 1024 терабайт).

  • ООН започаткувала всесвітні зустрічі з питань інформаційного суспільства (WSIS) в Женеві (грудень 2003 р.) та в Тунісі (16—18 листопада 2005 р).

  • Людство перебуває на етапі переходу від індустріального суспільства до інформаційного та його наступної фази — суспільства, побудованого на знаннях.



Суспільство побудоване на знаннях

  • людський вимір;

  • знання є товаром;

  • знання змінюють конфігурацію геополітичних сфер впливу у світі;

  • знання стають більш комплексними, міждисциплінарними та проблемно-орієнтованими;

  • знання є і індивідуальними і колективними;

  • знання мають синергетичний характер;

  • процес створення і розповсюдження нових знань має мережевий характер.



Технології інтелектуального аналізу

  • Сутністю інформаційної революції є перехід від автоматизованої обробки інформації до комп’ютерного представлення і обміну чистим знанням.

  • Комп’ютерні системи повинні не лише зберігати і використовувати великі обсяги інформації, а й ефективно допомагати користувачам знаходити нові шляхи вирішення проблем.

  • Метою інтелектуальних технологій є знаходження нового знання, яке користувач може надалі застосувати для поліпшення результатів своєї діяльності.



Data mining (знаходження знань)

  • Технологія Data mining стає невід'ємною частиною інформаційних сховищ даних (Data warehouse) та організації інтелектуальних обчислень.

  • Дозволяє “знайти” приховані правила і закономірності у наборах даних, застосування яких сприяє виявленню ефективного результату.



Моделі обробки і аналізу даних

  • Основні види моделей, що використовуються для виявлення й аналізу знань на основі даних інформаційного сховища:

  • класифікація;

  • кластеризація;

  • регресія;

  • прогнозування часових послідовностей;

  • асоціація;

  • послідовність.



Електронні бібліотеки як сховища даних

  • Електронні бібліотеки є однією з найбільш перспективних сфер застосування вищезгаданих алгоритмів.

  • Вони містять великі обсяги даних і відповідають концепціям інформаційних сховищ даних:

    • предметна орієнтація (дані об’єднані в категорії);
    • інтегрованість (наявність єдиної централізованої сукупності даних);
    • прив’язка до часу (сховище можна розглядати як сукупність “історичних” даних);
    • незмінність (дані у сховище лише долучаються).


Електронна бібліотека НБУВ

  • Наукова електронна бібліотека НБУВце велике сховище баз даних, які об’єднують в собі наступні інформаційно-ресурсні компоненти:

    • електронний каталог НБУВ,
    • загальнодержавну реферативну базу даних,
    • фонд електронних документів з повними текстами.
  • Пошукова система електронних колекцій бібліотек НБУВ розроблена на базі пакету прикладних програм CDS/ISIS (Computer Documentation System / Integrated System Information Services).



Пакет прикладних програм IDAMS

  • Для виділення та обробки нових знань у базах CDS/ISIS можливе застосування пакета прикладних програм IDAMS.

  • IDAMS вільно поширюється UNESCO й орієнтований на проведення статистичних досліджень і аналізу даних у великих інформаційних масивах.

  • Таблиці даних IDAMS зберігаються в текстових файлах, в яких змінні (стовпці) займають фіксовані позиції. В IDAMS є припустимими дані двох типів – числові і текстові.



Інтелектуальна обробка інформації у CDS/ISIS -сумісних базах даних



Аналіз часових рядів записів бібліотечних баз

  • Мета - прогноз загальної кількості документів або документів відповідних тематик на наступні періоди.

  • Приведено аналіз даних бази НБУВ авторефератів дисертацій, захищених в Україні в 2000-2004 рр.



Динаміка захисту дисертацій 2000-2005 рр.



Кластеризація електронних документів баз даних CDS/ISIS

  • Мета - автоматичне виділення семантично схожих документів серед заданої фіксованої множини документів (на основі попарної схожості описів документів)

  • Для підвищення ефективності та швидкості інформаційного пошуку, запит користувача може порівнюватись з центрами побудованих кластерів.

  • Для розбиття колекції електронних документів на кластери за допомогою IDAMS необхідно сформувати текстовий файл з матрицею терм-документ.



Побудова матриці терм-документ

  • Електронна колекція документів може бути представлена матрицею терм-документ, що містить в собі частоти використання деякого терміну в кожному з документів колекції.

  • Може бути побудована у текстовому файлі з словника пошукових термінів бази даних CDS/ISIS за допомогою ISIS_DLL, прикладного програмного інтерфейсу ISIS, що розроблений та вільно поширюється UNESCO .

  • Використання основ слів в якості термів веде за собою підвищення ефективності числових методів.



Схема побудови матриці терм-документ



Робота з WINIDAMS

  • Після імпортування до пакету IDAMS матриці терм-документ у вигляді текстового файлу, необхідно створити:

    • словник даних IDAMS, що визначає типи даних та правила їх валідації;
    • файл даних IDAMS (на базі словника даних), який і буде підлягати обробці і аналізу;
    • командний файл, з послідовністю команд, що включає:
      • перевірку даних;
      • Перекодування;
      • визначення методу та основних параметрів кластеризації;
      • формат виводу результатів та ін.
  • Результатом виконання аналізу IDAMS є вихідний файл з виводом отриманих кластерів.



Висновки

  • Практичне застосування методів інформометричного аналізу електронних бібліотек, може включати:

    • авторубрикацію повних текстів;
    • класифікацію і кластеризацію документів;
    • відслідкування змін в часі термінів предметних галузей;
    • уточнення пошукових запитів та інтелектуалізацію пошуку.



База даних захищена авторським правом ©pres.in.ua 2016
звернутися до адміністрації

    Головна сторінка