Что такое документальная база данных
Перейти к содержимому

Что такое документальная база данных

  • автор:

Документальные и фактографические бд.

Классификация БД может быть проведена по множеству разных признаков.

По форме представления информации различают визуальные и аудиосистемы, а также системы мультимедиа. Эта классификация показывает, в каком виде информация хранится в БД и выдается из БД пользователям – в виде изображения, звука или имеется возможность использования разных форм отображения информации.

По характеру организации данных БД могут быть разделены на неструктурированные, частично структурированные и структурированные. Этот признак классификации относится информации, представленной в символьном виде. К неструктурированным БД могут быть отнесены базы, организованные в виде семантических сетей. Частично структурированными можно считать базы данных в виде обычного текста или гипертекстовые системы. Структурированные БД требуют предварительного проектирования и описания структуры БД.

Структурированные БД, в свою очередь, по типу используемой модели делятся на иерархические, сетевые, реляционные, смешанные и мультимодельные.

По типу хранимой информации БД делятся на документальные, фактографические и лексикографические.

Среди документальных баз различают библиографические, реферативные и полнотекстовые.

К лексикографическим базам данных относятся различные словари ( классификаторы, многоязычные словари, словари основ слов и т.п.).

В системах фактографического типа в БД хранится информация об интересующих пользователя объектах предметной области в виде «фактов» (например, библиографические данные о сотрудниках, данные о выпуске продукции и т.п.). В ответ на запрос пользователя выдается требуемая информация об интересующем его объекте (объектах) или сообщение о том, что искомая информация отсутствует в БД.

В документальных БД единицей хранения является какой-либо документ ( например, текст закона или статьи), и пользователю в ответ на его запрос выдается либо ссылка на документ, либо сам документ, в котором он может найти интересующую его информацию.

БД документального типа могут быть организованы по-разному: без хранения и с хранением самого исходного документа на машинных носителях. К системам первого типа можно отнести библиографические и реферативные БД, а также БД-указатели, отсылающие к источнику информации. Системы, в которых предусмотрено хранение полного текста документа, называют полнотекстовыми.

К фактографическим базам данных ВИНИТИ относится база СД – база структурных данных по химии

База СД – база структурных данных по химии — одна из трех крупнейших в мире аналогичных баз данных. Формируется с 1975 г. Содержит более 6 млн. химических структур, приблизительно 3 млн. химических реакций, около 15 млн. свойств химических соединений.

Реализована программа поиска по структурам индивидуальных соединений, фрагментам структур, предметным термам, свойствам и применению соединений. Ежегодно вводится информация о 200 тыс. соединений, 100 тыс. химических реакциях из 30 тыс. документов.

Услуги на основе базы СД:

поиск информации с 1975 г.

формирование проблемно-ориентированных баз данных.

Примером фактографической база данных может служить “Макроциклические соединения и их комплексы” (“Российский краун”)

Содержит уникальную информацию о достижениях российских ученых в области химии и химической технологии макроциклических соединений и их комплексов. Формируется с 1993 г. Проводится ежеквартальное пополнение данными о книгах, патентах, диссертациях и периодических изданиях России и некоторых стран СНГ. База данных сопровождается оригинальными каталогами, позволяющими производить структурный, подструктурный и предметный поиск.

База данных “Алтей” создана для сбора, анализа и использования научной информации по лекарственным растениям, их биологически активным элементам, изготовления медицинских препаратов на основе лекарственных растений, библиографической и другой информации, необходимой в научной и практической работе.

База данных содержит описания 250 лекарственных растений, 450 сборов лекарственных трав, более 400 рефератов статей. ИПС может быть использована специалистами по фитотерапии и врачами других специальностей, научными работниками, преподавателями, специалистами в области растениеводства, морфологии растений, сельского хозяйства, а также посвящена сбору, культивации и уходу за лекарственными растениями. БД “Алтей” предназначена для пользователя, не имеющего опыта работы на компьютере.

В системах документального типа целью поиска может быть не только какая-то информация, хранящаяся в документах, но и сами документы.

Специфической разновидностью баз данных являются базы данных форм документов. Они обладают некоторыми чертами документальных систем (ищется документ, а не информация о конкретном объекте, форма документа имеет название, по которому обычно и осуществляется его поиск), и специфическими особенностями (документ ищется не с целью извлечь из него информацию, а с целью использовать его в качестве шаблона).

В последние годы активно развивается объектно-ориентированный подход к созданию информационных систем. Объектные базы данных организованы как объекты и ссылки к объектам. Объект представляет собой данные и правила, по которым осуществляются операции с этими данными. Объект включает метод, который является частью определения объекта и запоминается вместе с объектом. В объектных БД данные запоминаются как объекты, классифицированные по типам классов и организованные в иерархическое семейство классов. Класс – коллекция объектов с одинаковыми свойствами. Объекты принадлежат классу. Классы организованы в иерархии.

По характеру организации хранения данных и обращения к ним различают локальные (персональные), общие (интегрированные, централизованные) и распределенные БД.

Персональная БД – это база данных, предназначенная для локального использования одном пользователем. Локальные БД могут создаваться каждым пользователем самостоятельно, а могут извлекаться из общей БД.

Интегрированные и распределенные БД предполагают возможность одновременного обращения нескольких пользователей к одной и той же информации (многопользовательский, параллельный режим доступа).

Определение документной базы данных

Документная база данных – это тип нереляционных баз данных, предназначенный для хранения и запроса данных в виде документов в формате, подобном JSON. Документные базы данных позволяют разработчикам хранить и запрашивать данные в БД с помощью той же документной модели, которую они используют в коде приложения. Гибкий, полуструктурированный, иерархический характер документов и документных баз данных позволяет им развиваться в соответствии с потребностями приложений. Документная модель хорошо работает в таких примерах использования, как каталоги, пользовательские профили и системы управления контентом, где каждый документ уникален и изменяется со временем. Документные базы данных обеспечивают гибкость индексации, производительность выполнения стандартных запросов и аналитику наборов документов.

В следующем примере документ в формате, подобном JSON, описывает книгу.

Примеры использования

Управление контентом

Документная база данных – отличный выбор для приложений управления контентом, таких как платформы для блогов и размещения видео. При использовании документной базы данных каждая сущность, отслеживаемая приложением, может храниться как отдельный документ. Документная база данных позволяет разработчику с удобством обновлять приложение при изменении требований. Кроме того, если необходимо изменить модель данных, то требуется обновление только затронутых этим изменением документов. Для внесения изменений нет необходимости обновлять схему и прерывать работу базы данных.

Каталоги

Документные базы данных эффективны для хранения каталожной информации. Например, в приложениях для интернет‑коммерции разные товары обычно имеют различное количество атрибутов. Управление тысячами атрибутов в реляционных базах данных неэффективно. Кроме того, количество атрибутов влияет на производительность чтения. При использовании документной базы данных атрибуты каждого товара можно описать в одном документе, что упрощает управление и повышает скорость чтения. Изменение атрибутов одного товара не повлияет на другие товары.

Документные базы данных на AWS

Amazon DocumentDB (совместима с MongoDB)

Amazon DocumentDB (совместима с MongoDB) — это быстрая, масштабируемая, высокодоступная и полностью управляемая документная база данных, которая поддерживает рабочие нагрузки MongoDB. Разработчики могут использовать в Amazon DocumentDB такой же код приложения, драйверы и инструменты для запуска, управления и масштабирования рабочей нагрузки, что и в MongoDB, при этом получая высокопроизводительную, масштабируемую и готовую к работе базу данных и не тратя время на управление базовой инфраструктурой.

документальная база данных

документальная база данных — Rus: документальная база данных Eng: document database Fra: base de données de documents База данных, в которой каждая запись отражает конкретный документ, содержит его библиографическое описание и, возможно, иную информацию о нем. ГОСТ 7.73 [3.3 … Словарь по информации, библиотечному и издательскому делу

Документографическая база данных — база данных, в запись которой отражает конкретный документ, содержит его библиографическое описание и, возможно, иную информацию о нем. По английски: Document databse Синонимы: Документальная база данных См. также: Базы данных Финансовый словарь… … Финансовый словарь

Библиографическая база данных — отсылочная документальная база данных, содержащая библиографические записи. По английски: Bibliographical databse См. также: Библиографические базы данных Фактографические базы данных Отсылочные базы данных Библиографические записи Финансовый… … Финансовый словарь

библиографическая база данных — Отсылочная документальная база данных, содержащая библиографические записи. [ГОСТ 7.73 96 ] Тематики поиск и распространение информации Обобщающие термины базы данных EN bibliographical database FR base de données bibliographiques … Справочник технического переводчика

библиографическая база данных — 3.3.5 библиографическая база данных: Отсылочная документальная база данных, содержащая библиографические записи Источник … Словарь-справочник терминов нормативно-технической документации

библиографическая база данных — Rus: библиографическая база данных Eng: bibliographical database Fra: base de données bibliographiques Отсылочная документальная база данных, содержащая библиографические записи. ГОСТ 7.73 [3.3.5] … Словарь по информации, библиотечному и издательскому делу

Документальная ревизия — Финансовый контроль Контроль Виды финансового контроля Государственный контроль В … Википедия

ДБД — документальная база данных … Словарь сокращений русского языка

ГОСТ 7.73-96: Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения — Терминология ГОСТ 7.73 96: Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения оригинал документа: 3.2.5 автоматизированная информационно поисковая система: ИПС,… … Словарь-справочник терминов нормативно-технической документации

фактографическая информационно-поисковая система — 3.2.4 фактографическая информационно поисковая система: ИПС, предназначенная для поиска фактов 3.3.1 база данных; БД; Набор данных, который достаточен для установленной цели и представлен на машинном носителе в виде, позволяющем осуществлять… … Словарь-справочник терминов нормативно-технической документации

Документальные БД

· Оперативная аналитическая обработка данных (технология OLAP) предусматривает динамический синтез, анализ и консолидацию многомерных данных большого объема.

· Приложения OLAP применяются в различных функциональных областях, таких как планирование расходов, анализ финансовых результатов, анализ и прогнозирование сбыта, аналитические исследования рынка и сегментация рынков/клиентов.

· Основные характеристики приложений OLAP включают многомерные представления данных, поддержку сложных вычислений и правильный учет фактора времени.

· В базах данных OLAP для хранения данных и представления связей между ними используются многомерные структуры. Многомерные структуры проще всего представить в виде кубов данных. Каждая сторона куба рассматривается как отдельная размерность.

Реляционная модель данных, в основе которой лежит табличное представление данных, очень хорошо подходит для создания фактографических БД. Однако она может с успехом использоваться и для разработки документальных БД. В частности, хорошие возможности для создания документальных БД предоставляет современная СУБД SQL Server.

Организация данных и механизмы поиска в документальных БД имеют существенные отличия, которые обусловлены в первую оче­редь характером хранимой и обрабатываемой информации.

Фактографические системы хранят хорошо структурированные сведения (факты). Соответственно и запросы к ним носят более четкий (определенный) характер. Например, запрос к БД, содержащей сведения о сотрудниках предприятия, может быть таким: найти должность, оклад и телефон сотрудника Иванова.

Документальные системы хранят не факты, а документы, содержащие эти факты. Соответственно наш запрос о сотруднике может выглядеть следующим образом: найти документы, содержащие сведения о должности, окладе и телефоне сотрудника Иванова.

Иными словами, запись документальной базы данных — это документ (обычно большого размера), который задается как набор в общем случае необязательных полей (например, аннотаций, глав, разделов, подразделов и т.д.), для каждого из которых оп­ределены имя и тип.

C точки зрения поиска атомарным (семантически значимым) элементом данных является слово. Вследствие этого поисковые структуры строятся в виде ин­вертированных файлов.

Обычно система присваивает каждому документу уникальный номер; каждому ключевому слову документа ставится в соответствие указатель на списки эк­земпляров, являющихся перечнем документов, в которых встречается данное слово (то есть создается индекс). Каждый список экземпляров содержит заголовок, из которого можно узнать число экземпляров слова во всем файле доку­ментов, а также число документов, в которых это слово встречается.

Поисковый критерий (критерий поиска документов) может включать в себя разные слова, причем пользователь может потребовать, чтобы заданное слово встречалось в названии документа, аннотации, введении или в каком-то конкретном параграфе.

Независимо от содержания критерия отбора поиск документа (в большинстве случаев) осуществляется на уровне списка экземпляров без необходимости входа в файл доку­ментов.

Документальная БД включает в себя как минимум три области хранения данных, представляемые из-за своего большого размера, как правило, в виде файлов операционной системы (в действительности их всегда больше):

• файл словаря, устанавливающий соответствие меж­ду словом, встречающимся в БД, и его кодом;

• инверсный (инвертированный, обратный) список, содержа­щий для каждого слова БД список документов, его содержа­щих, используется при текстовом поиске;

• текстовый файл, содержащий собственно документы, исполь­зуется при выдаче (просмотре) документов.

На рис.21. 1 приведена принципиальная схема организации поиска документов, ха­рактерная для большинства современных документальных БД.

Рис.21. 1 Принципиальная схема поиска документов в документальных БД

Рассмотрим пример упрощенной реализации документальной БД в среде реляционной СУБД. С логической точки зрения она имеет «стандартную» структуру и включает две компоненты: регистрационные карты (РК) и полные тексты (ПТ).

Рис. 21.2 Логическая структура документальной БД

Регистрационные карты представляют собой форматированные записи, содержащие относительно стандартный набор библиографических данных, а также ссылку на соответствующий полный текст (рис.21.2).

Полные тексты документов состоят из страниц двух типов:

• логических, т. е. структурных единиц текста — пункт, пара­граф, статья;

• физических — принудительное разбиение длинного неструк­турированного текста на фрагменты одинаковой длины.

Рис21. 3 Физическая структура документальной БД и виды поиска документов

Таблица ПТ — одна или несколько таблиц, в которых содержатся полные тексты документов. На логическом уровне образует представленную на рис.2 иерархическую структуру: БД, документ, страница.

Словарь ПТ — таблица представляет со­бой список ключевых слов и стандартных словосочетаний (например, «статья 256», «п. 13», «N 1400-РП»), извлеченных из текста, сопровождае­мых частотами появления.

Инверсная таблица ПТ ( или инверсный список ПТ) — таблица, содержащая список ключевых слов и словосочетаний, сопровождаемых номерами страниц.

Сло­варная и инверсная таблицы используются для сквозного полнотек­стового поиска.

Таблица РК — таблица регистрационных карт, каждая запись которой содержит заглавие, дату регистрации, номер, вид документа, ссылки на страницы полного текста (ПТ) и другие поля.

Словарь РК — это таблица, содержащая значения полей регистрационных карт совместно с частотой появления и ссылками на записи таблицы РК.

Инверсная таблица РК (или инверсный список РК) содержит слова и словосо­четания и ссылки на записи таблицы РК.

Словарная и инверсная таблицы используются для поиска записей РК, с последующим доступом к страни­цам полного текста (ПТ).

Наряду со словарем РК иногда может использоваться словарь синонимов, служащий для обеспечения двуязычного поиска в словарных таблицах.

Поиск документов по БД может быть двух видов: поиск по РК и поиск по ПТ.

Первый вид поиска соответствует случаю, когда пользователь что-то знает о документе, например, название, автора, дату выпуска и т.д. Самый простой случай, когда пользователь знает все. Тогда просто анализируется таблица РК, из нее отбирается нужная регистрационная карта, из которой отбирается указатели на страницы полного текста документа. Далее эти страницы выбираются из таблицы ПТ.

Несколько сложнее поиск в случае, когда пользователь знает только часть атрибутов регистрационной карты, например, только одно название или только словосочетание из названия. В этом случае предварительно анализируется словарь и инверсная таблица РК, после чего отыскивается сама РК.

Поиск по ПТ соответствует ситуации, когда пользователь ничего не знает о документе и может указать только ключевые слова для него. В этом случае прежде всего используется инверсная таблица ПТ, из которой отыскивается список страниц, содержащих эти слова. Если такой список оказывается очень велик, может быть использован словарь ПТ, позволяющий сократить его в соответствии с частотой появления слов.

Несложно видеть, что инверсные таблицы – это таблицы адекватные по назначению и структуре индексам. С той лишь разницей, что они видны пользовательской программе, а индексы нет. Именно возможность видеть содержимое инверсной таблицы позволяет пользовательской программе анализировать его совместно со словарем ПТ.

Таблица РК является обычной таблицей с символьными полями.

Таблицы словарей и инверсные таблицы содержат данные типа BLOB: то есть списки слов (словосочетаний) и списки указателей хранятся не в самой таблице, а в другой табличной области, отличной от табличной области для словаря или инверсного списка.

Таблица ПТ содержит данные типа BFILE, т.е. тексты страниц документов хранятся в файлах операционной системы.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *