データ分析プラットフォームを構築する際の一つの考え方であるメダリオンアーキテクチャについて解説します。
メダリオンアーキテクチャ
メダリオンアーキテクチャは、データ分析やデータプラットフォームの設計において使用される一般的なアーキテクチャのフレームワークのことを言います。
このアーキテクチャでは、以下の図のようにデータをブロンズデータ、シルバーデータ、ゴールドデータという三つのレイヤーに分類し、それぞれのレイヤーでデータ整理、加工、分析を行っていきます。これによりデータ管理と分析が効率化されます。
メダリオンアーキテクチャは、レイクハウスという概念と密接に関連しています。レイクハウスについては「データ管理技術の違いを理解する」でまとめていますので興味があれば参考にしてください。
以降でブロンズ、シルバー、ゴールドといった各層についてどういったデータなのか、もう少し具体的に説明します。
ブロンズ層 Bronze
ブロンズ(Bronze)層のデータは、生データを管理する層です。ERPシステムや生産管理システム等、企業が利用する様々なシステムからの生データをそのままの形で蓄積するのがブロンズ層です。
ブロンズ層は、データレイクという言葉には最もあうデータ層かと思います。ブロンズ層では、各種データを一元管理し、変更データを迅速に取得して蓄積します。
シルバー層 Silver
シルバー(Silver)層のデータは、ブロンズ層のデータに対して必要に応じたデータクレンジング処理を行ったデータのことを言います。
データクレンジング(データクリーニングとも言われる)は、データ分析の前段階で非常に重要なプロセスで、データから不正確なデータや重複データ等の修正や削除、不完全なデータの補完等を目的にします。
データクレンジングの処理例としては以下のような処理があります。
処理 | 概要 |
---|---|
不正確なデータの修正 | 誤ったデータやフォーマットの修正を行う。 (例:スペルミス、誤った日付フォーマットの修正等) |
重複データの削除 | 同一または類似するレコードを削除して、データセットの一貫性を保つ。 |
不完全なデータの補完 | 欠損データがある場合は、可能な限り補完する。デフォルト値の設定や他データからの推測をする場合等がある。 |
データの標準化 | 異なるデータソースからのデータを統合するためにフォーマットや単位を統一する。 (例:日付フォーマット、通貨単位等) |
外れ値の処理 | データセット内で異常な値を識別し、エラーかどうか確認する。必要に応じて修正や削除を行う。 |
データの整合性確認 | 関連するデータ間で矛盾がないか確認する。 |
データの分類・整理 | データを分析しやすくするために、適切なカテゴリーに分類し、整理する。 |
上記は例のため他にも考えられるかと思います。シルバー層では、分析の前の事前処理を施しておき、以降の処理で扱いやすいようにしたデータ層であると思ってください。
ゴールド層 Gold
ゴールド(Gold)層のデータは、シルバー層のデータをさらに集約、加工してある特定のビジネス改善のために用意したデータのことを言います。
ゴールド層のデータは、BI(Business Intelligence)ツールと連携して各種KPIを確認したり、機械学習等のツールを使ってモデル構築をしたりといった用途で使用されます。
データ活用の最終的な目標は、ビジネスの意思決定に活用していくことです。意思決定のための情報は目的とする内容により異なります。例えば、製造部であれば在庫やLTといった製造状況を把握したいですし、財務部の人であれば財務諸表に関連する情報が必要です。
このような目的に応じて用意するのがゴールド層のデータです。データマートという言葉としては、この層のデータが最もあうのではないかと思います。
メダリオンアーキテクチャの活用
上記でメダリオンアーキテクチャの各層について説明してきましたが、メダリオンアーキテクチャは、データ層の境界が曖昧に感じられることがあります。私の経験では、企業内でも定義にずれが生じることがよくあります。しかし、各データの具体的な定義に固執するよりも、データを活用しやすく整理し、品質を高め、ビジネス目的に沿ったデータを用意することがメダリオンアーキテクチャの本質です。
特に現代の不確実性の高いビジネス環境では、迅速な実践が強く求められています。データ定義に時間を費やすあまり、本質から逸脱することなく、ビジネスの改善につながるデータ活用に集中することが非常に重要です。
ただし、データ整理に最低限の注意を払わないと、結局は役に立たない大量のデータが蓄積されることになるためバランスがとても重要で、とても難しいところです。
メダリオンアーキテクチャは、データを有効に活用するためのフレームワークとしてとても重要な考え方です。このアーキテクチャを適切に理解し、実装することでデータから重要な情報を最大限引き出し、ビジネスの戦略的意思決定を支援することができます。
まとめ
データ分析プラットフォームを構築する際の一つの考え方であるメダリオンアーキテクチャについて解説しました。
メダリオンアーキテクチャでは、データをブロンズデータ、シルバーデータ、ゴールドデータという三つのレイヤーに分類し、それぞれのレイヤーでデータ整理、加工、分析を行っていきます。これによりデータ管理と分析が効率化します。
企業などでレイクハウスを構築する際などには参考になる考え方だと思います。ぜひ考え方を参考にしてもらえると良いかなと思います。