В докладе описаны шаги по разработке онтологии для предметной области Библиография: анализ предпосылок к созданию онтологии, определение области применения, выбор используемой методологии, языка формализации и программного инструментария, разработка онтологии в соответствии с государственными и международными стандартами, верификация онтологии на основе тестовых данных.
The paper describes the steps in developing an ontology for the Bibliography domain, namely: analysis of ontology development prerequisites, application domain definition, choice of methodology, formal language and programming tools, ontology development in accordance with Russian and international standards, ontology verification on test data.
Библиографоведение является зрелой научной дисциплиной. Набор государственных стандартов СИБИД, основанных на аналогичных международных стандартах, устанавливает термины и определения в области информационной деятельности, библиотечного дела и библиографии. Существует ряд форматов описания библиографической информации: MARC (MARС21, RUSMARC, UNIMARC), ONIX XML, BibTEX, Dublin Core, каждый из которых используется в своей отрасли. Данные в этих форматах очень слабо циркулируют между отраслями, поэтому актуальна задача их интеграции.
Разнообразие форматов описания библиографических записей отражает предпочтения целевой аудитории: библиотеки обычно используют форматы семейства MARC; исследователи хранят информацию о публикациях в виде BibTeX; а пользователи Интернет в виде Dublin Core. Обычно электронные библиотеки поддерживают только один тип таких пользователей, ограничивая обмен данными.
Формат MARC21 описывает набор зарезервированных полей и позволяет хранить данные в виде обычного текста, но компьютерные программы не могут осуществлять интеллектуальную обработку этих значений. Необходимо снабдить такие поля семантическим описанием – онтологией, призванной формальным, т. е. интерпретируемым компьютерными системами образом, описать понятия и отношения предметной области. Онтология дополнит существующие форматы семантикой и позволит осуществлять интеграцию данных для них, будь то MARC21 или какой-то другой.
Традиционные системы поиска по ключевым словам выдают либо очень малый результат, либо наоборот очень большой. Используя семантический поиск можно автоматически уточнять или обобщать запрос, чтобы получить более релевантную выборку (например, с помощью использования классификаторов или персонифицированной информации).
Целью данной работы является формализация предметной области Библиография в виде онтологии с целью её использования в разработке библиотечно-информационного сервиса. Демонстрируется подход с использованием открытой семантики, позволяющий избежать указанных выше проблем с существующими форматами, улучшить полноту и точность поиска, а также подготовить основу для решения задачи интеграции электронных библиотек.