Управление качеством данных
с помощью онтологий

Выполнение задач управления качеством данных в корпоративной ИТ-среде осложняется тем, что каждая прикладная автоматизированная система имеет собственное хранилище информации. Данные в этих хранилищах связываются при помощи интеграционных механизмов, что порождает проблему появления дублей информационных объектов, а также не актуальной/не релевантной информации. Правила форматно-логического контроля приходится реализовывать по отдельности в каждом хранилище. Когда организация приходит к необходимости создать службу по управлению качеством данных, ввести должности дата-стюардов, оказывается, что им придется использовать множество разрозненных инструментов на разных платформах.

В первую очередь перед службой управления качеством данных возникают следующие вопросы:

  • Как организовать логический (смысловой) контроль корректности данных?
  • Как сравнить данные об одних и тех же объектах, находящиеся в разных системах?
  • Как применить одинаковые правила проверки корректности данных во всех автоматизированных системах организации?

Аналитики на основе интервью бизнес-пользователей могут сформулировать правила контроля целостности данных, которые представляют собой логические условия. На рисунках ниже показаны примеры таких правил.

Примеры правил логического контроля

Правила формулируются в терминах предметной области, которыми оперируют пользователи и аналитики. Перед ИТ-службами встает задача преобразовать эти правила в машинно-читаемую форму и обеспечить применение правил к данным вне зависимости от того, в каком хранилище или на какой платформе они находятся. Вероятнее всего, некоторые виды информационных объектов будут присутствовать сразу в нескольких разных автоматизированных системах.

Чтобы решить эту задачу, необходимо:

  • Создать «словарь», в терминах которого можно сформулировать правила. Онтологии представляют идеальный технологический базис для создания такого словаря.
  • Обеспечить возможность доступа к контролируемым данным не зависимо от того, где они находятся – создать логическую витрину данных или средство виртуализации данных.
  • Реализовать механизм контроля, позволяющий легко настраивать правила и применять их к любым данным. Подходящим средством формализации правил из стека онтологических технологий являются правила контроля ограничений SHACL Constraints.
  • Создать программную среду, предоставляющую специалистам по контролю качества данных инструменты для устранения найденных проблем.

Платформа АрхиГраф предоставляет полный спектр инструментов для решения этой задачи.

1) Создание онтологии выполняется с помощью редактора АрхиГраф.Мир.

2) Настройка логических правил контроля выполняется с помощью конструктора правил в АрхиГраф.СУЗ. Ниже показан пример интерфейса настройки правила (ограничения):

Настройка ограничения в АрхиГраф.СУЗ

3) Ограничения, созданные в АрхиГраф.СУЗ, сохраняются как объекты онтологии в соответствии со спецификацией SHACL Constraints. Платформа АрхиГраф.MDM автоматически применяет эти правила к информационным объектам, которые записывает в хранилища или извлекает оттуда.

4) Интерфейс АрхиГраф.Мир позволяет просматривать условия ограничений в виде SPARQL-запросов, а также объекты, свойства которых не проходят проверку:

Условие логического контроля в интерфейсе АрхиГраф.Мир

5) Благодаря дополнительному модулю "Логическая витрина данных" АрхиГраф.MDM имеет возможность извлекать данные из внешних хранилищ и применять к ним ограничения. Это позволяет достичь основной цели управления качеством данных - применения одинакового набора правил к любым информационным объектам не зависимо от того, где они хранятся.

6) Поскольку Логическая витрина данных АрхиГраф.MDM обеспечивает возможность идентификации информационных объектов, соответствующих одному и тому же объекту реального мира, по настраиваемому "естественному ключу" или с использованием таблиц соответствия идентификаторов, решается и вторая задача - возможность сравнения информации об одних и тех же объектах из разных систем. Прикладные решения на основе АрхиГраф.СУЗ предоставляют возможность выполнять поиск таких объектов и сравнивать их свойства.

Поиск данных об объекте в нескольких источниках
Сравнение данных об объекте из нескольких источников

Таким образом, решения на основе онтологий с использованием платформы АрхиГраф позволяют эффективно решить задачи управления качеством данных на предприятии с минимальными затратами, не нарушая сложившегося ИТ-ландшафта. "Бонусом" подобного решения будет создание средства поиска любых структурированных и не структурированных данных, находящихся в автоматизированных системах компании.