Публикация библиографических данных в Интернет

Филиппов А.Н., Некрасова Е.В., Самсонов М.С., Васюшкин К.П.
Научная музыкальная библиотека Санкт-Петербургской Государственной Консерватории

Веремеев А.В., Голенский С.П., Деграве Д.В.
Институт высокопроизводительных вычислений и баз данных, Санкт-Петербург

Публикация библиографических данных в Интернет.
Доклад на всероссийской научно-методической конференции «Телематика-98». 8-11 июня 1998 года, Санкт-Петербург.

В докладе рассматриваются следующие вопросы:

  1. Особенности библиографической информации и работы с ней.
  2. Выбор стандарта представления библиографических данных.
  3. Представления и хранение наборов данных в стандарте USMARC.
  4. Технология доступа к БД по Internet с применением CGI-скриптов.
  5. Перспективы применения систем на основе стандарта MARC.


Характерной особенностью библиографической информации являются переменная структура записей внутри одной БД. У издания может быть переменный набор атрибутов, однозначно описывающий это издание. К таким атрибутам относятся авторы, соавторы, ключевые слова и др. Библиографическая запись – это запись переменного размера. Поиск по БД необходимо проводить по любому набору полей с различными логическими отношениями.

В качестве стандарта представления и обмена библиографической информацией разработаны стандарты семейства MARC. К форматам типа MARC относятся разработки на базе форматов первоначально созданных в Библиотеке Конгресса США. В настоящее время существуют различные диалекты MARC, отличающиеся по назначению, стране адаптации, типу данных, для представления которых они разработаны.

Библиографическая запись USMARC запись содержит три главных компонента: лидер (Leader), указателя (Directory), полей записей. Лидер – элемент данных фиксированной длины 24 символа, с которого всегда начинается запись и содержит общие характеристики записи. Указатель – серии цифр по 12 символов, содержащие метку и длину каждого поля в записи, определяет набор данных библиографической записи. Данные в библиографической USMARC записи организованы в поля, которые определяются трехсимвольной цифровой меткой, хранящейся в указателе записи.

Предлагается следующий способ хранения и индексации данных в формате MARC, инвариантной к используемой СУБД. Основная база данных имеет следующие поля: дескриптор записи (8 байт) и поле данных (поле переменной длины). Дескриптор записи уникален и присваивается записи в момент её создания. Поле данных содержит непосредственно библиографическую USMARC запись. Индексы по полям USMARC записи оформляются в отдельные таблицы, состоящие из поля указывающего на дескриптор записи в основной базе (8 байт) и поля, содержащего хэш-код, вычисляемого по данным поля USMARC записи (6 байт). Реализован оригинальный алгоритм свертки текстового поля в 6-ти байтовое уникальное значение.

Таким образом, база данных может оснащаться неограниченным числом индексов, что позволяет организовать эффективный поиск по любому набору полей с различными логическими отношениями.

В совместном проекте ИВВиБД и НМК СПбГК предлагается следующий подход к созданию электронного каталога библиотеки с доступом к нему по сети Internet: данные накапливаются и обрабатываются автоматизированными библиотечными информационными системами, которые способны работать с записями в стандарте MARC. Затем записи, оформленные в соответствии со стандартом MARC, передаются в БД под управлением СУБД, имеющей доступ через сеть Internet. Для доступа к ресурсам электронной библиотеки со стороны пользователя будет необходим только http-browser ( такой как Netscape Navigator или Internet Explorer ). С помощью WWW-browser’a пользователь посылает запрос на получение информации, хранящейся в электронной библиотеке. Посланный запрос приходит к http-daemon’у, который через общий интерфейс шлюзов (Common Gateway Interface) передает его специально написанной программе. Эта программа взаимодействует с базой данных электронной библиотеки и обрабатывает запрос пользователя, после чего результат возвращается http-daemon’у, который и направляет его пользователю, пославшему запрос. Клиентская часть, выполняемая на WWW-browser’е позволяет в интерактивном режиме сформировать и уточнить запрос к базе данных и представить полученные данные в удобной для пользователя форме.

Информация, представленная в БД, может быть принята другими системами из сети Internet через массив данных в стандарте USMARC.

Такой подход позволяет отделить средства накопления данных от средств публикации в Internet, позволяет сократить расходы на конвертирование баз данных и их хранение. Любая система, способная работать с данными стандарта USMARC, может импортировать и экспортировать библиографические данные. Создаётся предпосылка объединения информации, накопленной различными библиотеками, в единое информационное пространство на одном суперсервере.

Список литературы.

  1. Elzy C., Nourie A., Lancaster F., Joseph K. Evaluating Reference Service in a Large Academic Library. — College and Research Libraries, 52, 454-465
  2. Bayer R., McCreight E. Organization and Maintenance of Large Ordered Indexes. — Acta Informatica, 1, No. 3, 1972, 173-189
  3. Maurer W. D. An Improved Hash Code for Scatter Storage — Comm. ACM, 11, 1968, No. 1, 35-38
  4. Кнут Д. Исскуство программирования для ЭВМ., т.3, Сортировка и поиск. М., Мир, 1978
  5. Григорьев В.Ю., Е.В.Зенина, Е.К.Григорьева; USMARC: Формат для библиографических данных. СПб, БКС, 1995г.

Оставьте комментарий