Сучасному суспільству притаманний «інформаційний вибух», що постійно наростає.
Лише у 2005 р. світове співтовариство виробить понад 20000 петабайтів (1 Пбайт = 1024 терабайт).
ООН започаткувала всесвітні зустрічі з питань інформаційного суспільства (WSIS) в Женеві (грудень 2003 р.) та в Тунісі (16—18 листопада 2005 р).
Людство перебуває на етапі переходу від індустріального суспільства до інформаційного та його наступної фази — суспільства, побудованого на знаннях.
Суспільство побудоване на знаннях
людський вимір;
знання є товаром;
знання змінюють конфігурацію геополітичних сфер впливу у світі;
знання стають більш комплексними, міждисциплінарними та проблемно-орієнтованими;
знання є і індивідуальними і колективними;
знання мають синергетичний характер;
процес створення і розповсюдження нових знань має мережевий характер.
Технології інтелектуального аналізу
Сутністю інформаційної революції є перехід від автоматизованої обробки інформації до комп’ютерного представлення і обміну чистим знанням.
Комп’ютерні системи повинні не лише зберігати і використовувати великі обсяги інформації, а й ефективно допомагати користувачам знаходити нові шляхи вирішення проблем.
Метою інтелектуальних технологій є знаходження нового знання, яке користувач може надалі застосувати для поліпшення результатів своєї діяльності.
Data mining (знаходження знань)
ТехнологіяData mining стає невід'ємною частиною інформаційних сховищ даних (Data warehouse) та організації інтелектуальних обчислень.
Дозволяє “знайти” приховані правила і закономірності у наборах даних, застосування яких сприяє виявленню ефективного результату.
Моделі обробки і аналізу даних
Основні види моделей, що використовуються для виявлення й аналізу знань на основі даних інформаційного сховища:
класифікація;
кластеризація;
регресія;
прогнозування часових послідовностей;
асоціація;
послідовність.
Електронні бібліотеки як сховища даних
Електронні бібліотеки є однією з найбільш перспективних сфер застосування вищезгаданих алгоритмів.
предметна орієнтація (дані об’єднані в категорії);
інтегрованість (наявність єдиної централізованої сукупності даних);
прив’язка до часу (сховище можна розглядати як сукупність “історичних” даних);
незмінність (дані у сховище лише долучаються).
Електронна бібліотека НБУВ
Наукова електронна бібліотека НБУВ – це велике сховище баз даних, які об’єднують в собі наступні інформаційно-ресурсні компоненти:
електронний каталог НБУВ,
загальнодержавну реферативну базу даних,
фонд електронних документів з повними текстами.
Пошукова система електронних колекцій бібліотек НБУВ розроблена на базі пакету прикладних програм CDS/ISIS(Computer Documentation System / Integrated System Information Services).
Для виділення та обробки нових знань у базах CDS/ISIS можливе застосування пакета прикладних програм IDAMS.
IDAMS вільно поширюється UNESCO й орієнтований на проведення статистичних досліджень і аналізу даних у великих інформаційних масивах.
Таблиці даних IDAMS зберігаються в текстових файлах, в яких змінні (стовпці) займають фіксовані позиції. В IDAMS є припустимими дані двох типів – числові і текстові.
Інтелектуальна обробка інформації у CDS/ISIS -сумісних базах даних
Для обміну даними між CDS/ISIS та IDAMS існує програма WinIDIS, яка готує опис даних і виконує передачу даних.
Аналіз часових рядів записів бібліотечних баз
Мета - прогноз загальної кількості документів або документів відповідних тематик на наступні періоди.
Приведено аналіз даних бази НБУВ авторефератів дисертацій, захищених в Україні в 2000-2004 рр.
Динаміка захисту дисертацій 2000-2005 рр.
Кластеризація електронних документів баз даних CDS/ISIS
Мета - автоматичне виділення семантично схожих документів серед заданої фіксованої множини документів (на основі попарної схожості описів документів)
Для підвищення ефективності та швидкості інформаційного пошуку, запит користувача може порівнюватись з центрами побудованих кластерів.
Для розбиття колекції електронних документів на кластери за допомогою IDAMS необхідно сформувати текстовий файл з матрицею терм-документ.
Побудова матрицітерм-документ
Електронна колекція документів може бути представлена матрицею терм-документ, що містить в собі частоти використання деякого терміну в кожному з документів колекції.
Може бути побудована у текстовому файлі з словника пошукових термінів бази даних CDS/ISIS за допомогою ISIS_DLL, прикладного програмного інтерфейсу ISIS, що розроблений та вільно поширюється UNESCO .
Використання основ слів в якості термів веде за собою підвищення ефективності числових методів.
Схема побудови матрицітерм-документ
Робота з WINIDAMS
Після імпортування до пакету IDAMS матриці терм-документ у вигляді текстового файлу, необхідно створити:
словник даних IDAMS, що визначає типи даних та правила їх валідації;
файл даних IDAMS (на базі словника даних), який і буде підлягати обробці і аналізу;
командний файл, з послідовністю команд, що включає:
перевірку даних;
Перекодування;
визначення методу та основних параметрів кластеризації;
формат виводу результатів та ін.
Результатом виконання аналізу IDAMS є вихідний файл з виводом отриманих кластерів.
Висновки
Практичне застосування методів інформометричного аналізу електронних бібліотек, може включати: