Інформаційна технологія виділення та обробки знань у cds/isis-сумісних базах даних Шерепа Тетяна Анатоліївна, м н. с. Нбув



Дата конвертації04.06.2016
Розмір445 b.


Інформаційна технологія виділення та обробки знань у CDS/ISIS-сумісних базах даних


Шляхи розвитку інформаційного суспільства

  • Сучасному суспільству притаманний «інформаційний вибух», що постійно наростає.

  • Лише у 2005 р. світове співтовариство виробить понад 20000 петабайтів (1 Пбайт = 1024 терабайт).

  • ООН започаткувала всесвітні зустрічі з питань інформаційного суспільства (WSIS) в Женеві (грудень 2003 р.) та в Тунісі (16—18 листопада 2005 р).

  • Людство перебуває на етапі переходу від індустріального суспільства до інформаційного та його наступної фази — суспільства, побудованого на знаннях.



Суспільство побудоване на знаннях

  • людський вимір;

  • знання є товаром;

  • знання змінюють конфігурацію геополітичних сфер впливу у світі;

  • знання стають більш комплексними, міждисциплінарними та проблемно-орієнтованими;

  • знання є і індивідуальними і колективними;

  • знання мають синергетичний характер;

  • процес створення і розповсюдження нових знань має мережевий характер.



Технології інтелектуального аналізу

  • Сутністю інформаційної революції є перехід від автоматизованої обробки інформації до комп’ютерного представлення і обміну чистим знанням.

  • Комп’ютерні системи повинні не лише зберігати і використовувати великі обсяги інформації, а й ефективно допомагати користувачам знаходити нові шляхи вирішення проблем.

  • Метою інтелектуальних технологій є знаходження нового знання, яке користувач може надалі застосувати для поліпшення результатів своєї діяльності.



Data mining (знаходження знань)

  • Технологія Data mining стає невід'ємною частиною інформаційних сховищ даних (Data warehouse) та організації інтелектуальних обчислень.

  • Дозволяє “знайти” приховані правила і закономірності у наборах даних, застосування яких сприяє виявленню ефективного результату.



Моделі обробки і аналізу даних

  • Основні види моделей, що використовуються для виявлення й аналізу знань на основі даних інформаційного сховища:

  • класифікація;

  • кластеризація;

  • регресія;

  • прогнозування часових послідовностей;

  • асоціація;

  • послідовність.



Електронні бібліотеки як сховища даних

  • Електронні бібліотеки є однією з найбільш перспективних сфер застосування вищезгаданих алгоритмів.

  • Вони містять великі обсяги даних і відповідають концепціям інформаційних сховищ даних:

    • предметна орієнтація (дані об’єднані в категорії);
    • інтегрованість (наявність єдиної централізованої сукупності даних);
    • прив’язка до часу (сховище можна розглядати як сукупність “історичних” даних);
    • незмінність (дані у сховище лише долучаються).


Електронна бібліотека НБУВ

  • Наукова електронна бібліотека НБУВ – це велике сховище баз даних, які об’єднують в собі наступні інформаційно-ресурсні компоненти:

    • електронний каталог НБУВ,
    • загальнодержавну реферативну базу даних,
    • фонд електронних документів з повними текстами.
  • Пошукова система електронних колекцій бібліотек НБУВ розроблена на базі пакету прикладних програм CDS/ISIS (Computer Documentation System / Integrated System Information Services).



Пакет прикладних програм IDAMS

  • Для виділення та обробки нових знань у базах CDS/ISIS можливе застосування пакета прикладних програм IDAMS.

  • IDAMS вільно поширюється UNESCO й орієнтований на проведення статистичних досліджень і аналізу даних у великих інформаційних масивах.

  • Таблиці даних IDAMS зберігаються в текстових файлах, в яких змінні (стовпці) займають фіксовані позиції. В IDAMS є припустимими дані двох типів – числові і текстові.



Інтелектуальна обробка інформації у CDS/ISIS -сумісних базах даних

  • Для обміну даними між CDS/ISIS та IDAMS існує програма WinIDIS, яка готує опис даних і виконує передачу даних.



Аналіз часових рядів записів бібліотечних баз

  • Мета - прогноз загальної кількості документів або документів відповідних тематик на наступні періоди.

  • Приведено аналіз даних бази НБУВ авторефератів дисертацій, захищених в Україні в 2000-2004 рр.



Динаміка захисту дисертацій 2000-2005 рр.



Кластеризація електронних документів баз даних CDS/ISIS

  • Мета - автоматичне виділення семантично схожих документів серед заданої фіксованої множини документів (на основі попарної схожості описів документів)

  • Для підвищення ефективності та швидкості інформаційного пошуку, запит користувача може порівнюватись з центрами побудованих кластерів.

  • Для розбиття колекції електронних документів на кластери за допомогою IDAMS необхідно сформувати текстовий файл з матрицею терм-документ.



Побудова матриці терм-документ

  • Електронна колекція документів може бути представлена матрицею терм-документ, що містить в собі частоти використання деякого терміну в кожному з документів колекції.

  • Може бути побудована у текстовому файлі з словника пошукових термінів бази даних CDS/ISIS за допомогою ISIS_DLL, прикладного програмного інтерфейсу ISIS, що розроблений та вільно поширюється UNESCO .

  • Використання основ слів в якості термів веде за собою підвищення ефективності числових методів.



Схема побудови матриці терм-документ



Робота з WINIDAMS

  • Після імпортування до пакету IDAMS матриці терм-документ у вигляді текстового файлу, необхідно створити:

    • словник даних IDAMS, що визначає типи даних та правила їх валідації;
    • файл даних IDAMS (на базі словника даних), який і буде підлягати обробці і аналізу;
    • командний файл, з послідовністю команд, що включає:
      • перевірку даних;
      • Перекодування;
      • визначення методу та основних параметрів кластеризації;
      • формат виводу результатів та ін.
  • Результатом виконання аналізу IDAMS є вихідний файл з виводом отриманих кластерів.



Висновки

  • Практичне застосування методів інформометричного аналізу електронних бібліотек, може включати:

    • авторубрикацію повних текстів;
    • класифікацію і кластеризацію документів;
    • відслідкування змін в часі термінів предметних галузей;
    • уточнення пошукових запитів та інтелектуалізацію пошуку.


Каталог: sites -> default -> files -> msd
files -> Кирило Молодико науковий консультант Заступника Голови Конституційного Суду України
files -> 1 Поняття «acquis communautaire» з прав людини
msd -> Формат надання бібліографічної інформації
msd -> Савенкова Л. В. Наукова бібліотека Національного педагогічного університету імені М. П. Драгоманова
msd -> Доступ к Интернет бібліотечна послуга
msd -> Онищенко Олексій Семенович, академік-секретар Відділення
msd -> Розпорядженням Кабінету Міністрів України від 5 листопада 2003 р. №664-р днпб україни присвоєно ім'я видатного українського педагога В. О. Сухомлинського
msd -> Інформація про використання передплачених онлайнових науково-інформаційних ресурсів установами нан україни у 2006 р. Соловяненко Денис Володимирович м н. с. Центру комп’ютерних технологій нбув
msd -> Роль і місце Wеb-порталу Державної науково-педагогічної бібліотеки України ім. В. О. Сухомлинського в інформаційному просторі України


Поділіться з Вашими друзьями:


База даних захищена авторським правом ©pres.in.ua 2019
звернутися до адміністрації

    Головна сторінка