データ統合管理のメリットと課題とは?準備や実現までのステップを紹介

現代社会において、データは資本の一種です。あらゆる製品・サービスは、デジタルデータとの連携によって生み出されています。したがって、企業はデータを使いやすいかたちにまとめ、積極的に活用していかなくてはなりません。このとき重要になるのが「データ統合管理」です。データ統合管理はDXの実現という点でも重要な役割を担っています。ここでは、データ統合管理のメリットや課題、準備・実現のステップを具体的に解説していきます。

1. なぜデータ統合管理が必要なのか

1. なぜデータ統合管理が必要なのか

まず、データ統合管理の定義と必要性について解説します。

1-1. データ統合管理とは

データ統合管理とは、文字通り「データ統合」と「データ管理」を併せて実施することです。データ統合とは、部門ごと・業務領域ごとに分散したデータを一カ所にとりまとめ、誰もがデータの在りかを把握できるような状態にすることを指します。

また、データ管理では、データをアクセスしやすい場所に保管したり、使いやすい形式を維持したりしながら、鮮度や正確性を向上させていきます。

つまり、「社内に散らばるデータを一元化して管理し、分析することで業務効率化や新たな付加価値の創造に役立てるためのアクション」をデータ統合管理と呼ぶことが多いでしょう。

データ統合管理の方法はさまざまですが、現在はデータレイクやデータカタログを活用する方法が一般的です。ここでデータ統合管理基盤の構築に用いられるシステム、ツールを簡単に整理しておきましょう。

データレイク

データレイクとは、目的・用途が明らかではないビッグデータを保管する湖のような場所です。複数のルートから流れ込むデータを、発生したままの姿で蓄積しておきます。データレイクを使用することで、社内のあらゆる場所から誰もが簡単に、かつ迅速に自分の欲するデータを探せるような状態を維持するわけです。データレイクに集積されるデータは未処理であることが多く、用途や目的に応じて加工・編集されたのちに使用されます。一般的には非構造化データの分析など、主にデータサイエンス領域で活用されることが多いでしょう。

データウェアハウス

データウェアハウスは、データレイクと同様に、ビッグデータの保存に使用されます。ただし、データレイクが目的や用途を限定していないのに対し、データウェアハウスは一定の処理を施したデータを、目的・用途別に整理した状態で保管します。また、データウェアハウスはエンジニアやデータサイエンティストではなく、業務部門の担当者が使用することを想定するケースが多いようです。

データカタログ

データカタログは、データの場所を特定するためのツールです。データレイクへ蓄積されるデータは、日々増大し、多様性を増していきます。そのため、「どこかに保存されているはずだが、見つけられない」「目的や意味がわからないデータが増えて管理しきれない」といった課題が発生しがちです。こうした課題を解決するのがデータカタログです。データカタログは、データの名称・長さ・型・説明などを含む「メタデータ」を管理することで、データ所在地の特定や意味の理解を促進します。データカタログは、メタデータの管理・育成次第で使い勝手が大きく変化するという特徴を持っています。

ETL(Extract Transform Load)

ETLは、複数のシステムから抽出したデータを変換・加工したうえで、データウェアハウスなどへ渡す処理を指します。また、こうした処理を担うツールの名称としても使われます。ETLは、大量のデータを高速で変換・加工することに特化したツールです。また、メタデータの管理も可能なことから、データレイクやデータカタログとセットで運用されることもあります。

データプレパレーションツール

データプレパレーションツールは、データ変換・加工に特化したツールです。俯瞰的に見ればETLと似た目的を持ちますが、実際の運用ではターゲットユーザーやユースケースに違いがあります。一般的にETLはITの専門知識を持つ開発者などを対象として提供されます。これに対してデータプレパレーションツールは、システム開発の知見を持たないビジネスユーザーが対象です。そのため、データプレパレーションツールは「コーディングレス」「マウス操作を基本としたUI」など、ITの専門知識を持たない人材でもデータ変換・加工が可能な仕組みとして知られています。

近年のデータ統合管理は、複数のデータソース(ERP、CRM、IoTなど)から得られるデータを一カ所に集約し、適切に処理しつつ目的・用途ごとに管理する方式が一般的です。具体的には、ETLなどで処理したデータをデータレイク・データウェアハウスに蓄積し、必要に応じてデータカタログとして抽出し、BIやAIツールに取り込んでいきます。

1-2. データ統合管理の目的

データ統合管理の最終的な目的は、「DXを実現するための基盤を整えること」です。また、短期的な目標としては、「データドリブン経営の推進」「データ民主化の実現」などが挙げられるでしょう。

データドリブン経営では、非構造化データを活用した戦略的な意思決定を行います。また、データ民主化では、社内のだれもが自由にかつ柔軟にデータへアクセスし、担当業務に活用できる環境を構築します。データドリブン経営とデータ民主化は、社内のだれもが定量化されたデータを参照でき、新たな知見を得ることでビジネスの成長を促すものです。

また、データ統合管理には「情報のサイロ化を防ぐ」という目的もあります。業務システムの数や種類が増えるにつれ、情報の散逸が進んで相互連携が難しくなる「情報のサイロ化」が課題となるケースが増えています。情報のサイロ化が起こると、意思決定スピードが低下したり業務品質が悪化したりと、企業経営に甚大な悪影響をもたらすことも少なくありません。また、時間の経過とともに解決が難しくなるため、早急な対策が望まれます。

これらの目的を達成するためにデータを統合管理できるツールの導入を検討しているなら、データ統合に優れた「データ統合インフォマティカ ソリューション」のがおすすめです。本ソリューションでは、AWSをはじめとしたパブリッククラウドはもちろん、BIツール、その他オンプレミスで利用しているシステムのデータなど、さまざまなデータを統合し、データの可視化や保管ができます。これまで部署ごとに活用していたデータベースを1つにまとめられるため、データ活用の促進が期待できます。また各サービスをつなぐネットワークには、閉域でセキュアな「Flexible InterConnect」を採用しているため安心です。

2. データ統合管理によるメリット

データ統合管理は、DXを目指す企業に複数のメリットをもたらします。具体的には次のようなものです。

経営状況の可視化

データ統合管理を推進することで、精緻かつリアルタイムに経営状況が可視化されていきます。経営層が必要とする指標はもちろんのこと、営業・マーケティング・生産・物流など部門レベルの業務データも可視化されることから、すべてのデータが明確な根拠をもって提示されるのです。さらに、旧システムでは部門ごと、システムごとに散逸していたデータが一カ所にまとまり、それぞれのデータの意味が明確になることで、ビジネスのボトルネック部分が浮き彫りになるでしょう。

また、組織に必要なデータと不要なデータを仕分けて整理することが、業務効率の向上にもつながります。例えば、部門間で重複していた製品データや顧客データが統合されれば、意思疎通がスムーズになり、サービスやサポートの質が上がるといった効果が期待できるわけです。

分析、解析作業の自動化

AIツールによる学習、BIツールによる分析は、業界業態にかかわらずビジネスの知見を得るために活用されています。こうしたツールを活用するためは、一定以上のボリュームと精度を持ったデータが不可欠です。そのため、データクレンジングに膨大な時間を要することがあります。データ統合管理によって、ETLやデータプレパレーションツールの普及が進めば、こうしたコストを大幅に削減できるかもしれません。また、システムの構成次第では「データ収集・変換と加工・データ投入・分析」といった一連のステップを自動化することも可能です。

データ管理コストの削減

一般的にデータ管理コストは、可視化されにくいものです。海外の調査結果では、従業員はデータを探し当てるために平均で1日2時間を消費しており、業務効率が16%も低下していることが示されています。こうしたコストは、日々の業務の中に溶け込んでいることから経営陣が認識しにくく、明確な対策が無いことも珍しくありません。また、対策を講じようにも部門ごとに異なる業務プロセスを全てリファインしなくてはならず、このことが逆に現場担当者に負担を増やしかねません。一方、データ統合管理が進むことでデータを探し当てる時間が短縮されれば、業務プロセスを変えることなく、「データ管理コストだけを減らす」も可能です。

コンプライアンスの向上とセキュリティリスクの削減

2020年6月12日、「改正個人情報保護法」が公布されました。改正個人情報保護法では、匿名の第三者が意図せず個人情報を復元できないように「個人関連情報」を第三者に提供する場合、本人同意確認が義務付けられました。また、グローバル取引が一般化した現代においては、常にGDPR(一般データ保護規則)を意識したデータ活用が求められます。このようにデータに関するコンプライアンスは年々強化されており、それに伴って企業に求められるデータ管理能力の水準も上がっているのです。データ統合管理には、「データの在りか」「形式」「意味」などが分かりやすく整理されることでデータ管理能力を底上げし、コンプライアンスの向上につなげやすいというメリットがあります。

また、データ統合管理はデータ漏洩のリスクも低減させることも明らかになっています。ある調査では、データ管理に投資している企業の多くが、セキュリティリスクの低減を実感しているとの結果が示されました。セキュリティインシデントがもたらす「信用力の低下」「企業活動の停滞による損失」「制裁金、罰金」は経営上の重大なリスクであり、企業にはデータ統合管理による自己防衛が求められるでしょう。

3. データ統合管理で発生しがちな課題

3. データ統合管理で発生しがちな課題

では、実際にデータ統合管理を進めるうえで発生しがちな課題について整理していきましょう。

ガバナンスの不足による情報漏洩リスク

データ統合管理を進めるうえでは「ガバナンスの不足」への対応が課題になりがちです。ガバナンスとは端的に言えば「統治・管理のためのルール・体制」であり、一般的にはトップダウン方式で決定されます。しかし、部門ごとに異なるルールでデータを活用している場合は、部門長の独断や慣習によって「ローカル・ガバナンス」が敷かれていることも多いでしょう。ローカル・ガバナンスが常態化する中でデータ統合管理を進めてしまうと、思わぬ情報漏洩リスクに発展することがあります。例えば、他部門のデータに対するアクセス権限設定や取扱いルールが徹底されておらず、業務上の権限を持たない社員がデータにアクセスできてしまうことで、社外への持ち出しや不正アクセスを誘発してしまうのです。

異種データの取扱いにかかるコストの大きさ

データ統合管理は、異なる種類のデータを同じ場所に集約することから、データの種別に応じて取り扱いを変える際に相応のコストを発生させます。

企業が活用するデータは、大きく「産業データ」と「パーソナルデータ」に分類されます。産業データとは、企業が提供する製品・サービスから得られるデータや企業内のノウハウ、M2Mデータ(産業機器やIoTなどの通信から得られるデータ)などの総称です。一方、パーソナルデータとは個人を特定できる情報に行動履歴、購買履歴などの周辺情報を加えたものといえます。

これまで、産業用データとパーソナルデータはそれぞれ別な役割を持つとされてきましたが、近年はこの2つを組みあわせながら製品・サービスの開発を進める例が増えています。特に、ICTを活用したヘルスケアサービスやスマートホームサービスなどでは、産業データとパーソナルデータが不可分なサービスが存在しています。今後、こうした状況はさらに拡大していくことが予想されます。また、「構造化データ」と「非構造化データ」を同時に取り扱う機会も増えていくでしょう。

このように性質や仕様が異なるデータを同一の基準で扱うためには、クレンジング・フォーマット作成・整形作業などを経る必要があります。これらがボトルネックになり、データ統合が進まない可能性もあるのです。

解決不可能なサイロ化

前述したように、データ統合管理の目的のひとつには「サイロ化の防止」があります。しかし、長年にわたって個別最適が進んだ業務システム群からのデータ抽出・整理は、困難を極めるでしょう。また、整理のためには一旦データを読み解く必要もあり、そのための人材が不足するリスクもあるのです。仮に、個別最適化された業務システムを読み解き・整理することができないとなれば、ゼロからシステムを構築しなくてはならず、新たなコストが発生します。

人的リソースの不足

日本では、データ統合管理に知見を持つ人材が不足しています。平成29年版 情報通信白書によれば、産業データ・パーソナルデータの扱いに長けた人材が不足することへの懸念が示されています。データ統合管理の推進においては、適切なロードマップを描きつつ、人材調達・育成のプランも並行して進める必要があるでしょう。

このように、データ統合管理を進めるにあたって、企業によっては課題が発生する場合もあります。なかでも起きがちな「サイロ化したデータの統合」や「データ統合を進める人材の不足」という課題を解決するのが、「データ統合インフォマティカ ソリューション」です。このソリューションは、データマネジメントに優れたインフォマティカ社のサービスを、プラットフォームに知見のあるNTTコミュニケーションズが提供するという形で成り立っています。そのため、優れたデータ解析機能や連携機能をもったデータ環境を、トータルサポートを受けていただきながら構築可能です。

4. データ統合管理の具体的なステップ

最後に、データ統合管理の具体的なステップを紹介します。実際のデータ統合管理は、業務システムの数や運用状況、ガバナンスなどによって対策が異なります。そのため、あくまでも一例として参考にしてみてください。

ステップ1:構想策定

構想策定では、まず現状把握を行います。社内の各部署で、データをどのように取り扱い、何に役立てているのかを洗い出し、整理していきましょう。また、前提知識として業務プロセスを整理、可視化しておくことも大切です。統合管理の対象となる業務・システムが多ければ、まずは部分的に統合管理を行い、順次その範囲を拡大していくといった施策も必要です。また、その場合のシステム的な制約事項も取りまとめましょう。

次に、データ統合管理方針の策定を行います。何のために、どのデータを統合し、どういった基準で管理していくかを決定します。また、統合されたデータが継続的に活用されるためには、そのデータが有効であることを証明する評価指標も必要になるでしょう。したがって、データの有効性を測定する方法の整備や、改善プロセスの設計も並行して行うべきかもしれません。さらにここでは、データ統合管理を担当するチームの組成なども進めると良いでしょう。

ステップ2:要件定義

ステップ2の要件定義では、データ統合管理に用いるアーキテクチャ設計・選定を行います。2021年時点では、データ統合管理に用いられるアーキテクチャとして「データハブ」「データレイク」「データ仮想化」などが挙げられます。

データハブとは、データの発生ポイントとデータの利用ポイントをつなぎ、さらに接続点で一時的にデータを保持することで、迅速なデータ共有を可能にするものです。データハブでは、まず部門ごと・業務システムごとに最低限共有すべきデータを抽出し、そのデータを他部門・システムへと展開するための「ハブ」を設置します。ハブは、部門や業務システムの間に置かれ、さらにより大きな単位(支社・事業所など)をつなぐハブへと接続されます。こうすることで、インターフェース仕様が異なるシステム間でのデータサイロ化を防ぎ、低いコストでデータ統合管理が実現されます。

また、データレイクは単一の巨大なデータ保存スペースを設け、あらゆるデータを一カ所に集めつつ、必要に応じて変換・加工する方式です。データレイクでは分散ファイルシステムが用いられることが多く、ビッグデータを高速に処理することができます。近年は分析用のサンドボックスや、機械学習モデルのトレーニング環境、低コストのストレージなどの用途で活用されているようです。

最後のデータ仮想化は、複数のデータソースを単一の仮想データレイヤーへと接続し、仮想データレイヤーからオリジナルと同一のデータを提供する方式です。データの物理的な移動が必要ないため、ほぼリアルタイムにオリジナルデータを活用できることが特徴です。

アーキテクチャの選定が完了した後は、データ収集対象の決定やデータクレンジング方針の策定を行います。データクレンジングについては、ETLなどを用いる方式が一般的です。ただし、データサイロ化が進み、ETL方式で処理しきれない場合には、データ仮想化によるオリジナルデータの参照でデータ統合を進める方法などを検討してみてください。

ステップ3:基板設計・構築

要件定義が完了した後は、実際のシステム基盤設計・構築フェーズに入ります。このフェーズでは、次のようなタスクを進めていきます。

・データ統合管理基盤の設計、構築
データ統合管理基盤の使用するツール、システムおよびその全体像を設計するタスクです。一般的には各業務システム(ERP・CRM・SFA・POSシステムなど)やデータを集約する場所(データレイクなど)、クレンジングツールなどを選定し、それぞれが持つ特性や仕様を加味しながら構成を練り上げていきます。ちなみに、データ統合管理基盤をワンパッケージで提供するデータマネジメントソリューション(DMソリューション)も存在します。DMソリューションでは、マスタデータ管理に加えてマスタ統合(MDM)、品質管理、データ連携、BI機能などを提供することが多いようです。

・データレイクの設計、構築
データレイクを使用する場合には、データレイク自体の設計、構築も必要です。ちなみにデータレイクは、必ずしもひとつとは限りません。つまり、欠損や空白を修正したデータが格納される「1次データレイク」、1次データレイクをもとに集計や正規化を施した「2次データレイク」という具合に、クレンジングの内容やタイミングに応じて複数の階層を設けるのです。

自社開発にこだわらないのであればデータレイクソリューションを利用することで、低コストかつ短期間でデータレイクを構築できる可能性もあります。

・データクレンジング機能の設計、構築
データクレンジング機能の設計では、ETLやデータプレパレーションなど複数のソリューションから最適なものを選択していきます。

・データカタログ機能の設計、構築
データカタログはデータレイクから任意のデータを見つけ出すためのツールです。データカタログに必要な機能としては、「データカタログ本体(メタデータ)」「業務で使用される用語の辞書機能」「アクセス権の付与に関する機能」「利用状況の監視機能」「データの経路追跡機能(データリネージ)」などが挙げられるでしょう。

・サンドボックス機能、トライアル環境などの設計、構築
もし、ユーザーが任意にデータを加工し、編集して使用するのであればサンドボックス機能やトライアル環境の構築も必要です。サンドボックス機能やトライアル環境が充実することで、ユーザーはデータ活用に対する心理的なハードルが低くなり、活用が進みやすくなるという効果も期待できます。

ステップ4:データ移行、および運用

基板設計と構築が完了した後は、データ移行計画の策定に入ります。場合によってはデータ移行専用アプリケーションの開発が必要になることもあるでしょう。また、データ移行後は実際の運用に入ります。ステップ1で策定した方針に従い、データ統合管理チームが中心となって統合管理基盤の運用を進めていくことになります。

5. おわりに

本稿では、データ統合管理のメリットや課題、実際のステップなどを解説してきました。日本国内では、レガシーシステム群によるデータサイロやデータ形式の不整合、そこから発生する連携の弱さが、DXを阻む大きな壁となるケースが多いようです。データ統合管理は、DXの下準備として「データのあるべき姿」を具現化し、ビジネスでの利活用をスムーズにする働きがあります。また、新たな経営の合理化、意思決定の迅速化、新たな知見の発掘など、複数のメリットが期待できる施策です。できる限り早急に着手されることをおすすめします。

本記事で解説したように、データ統合管理を適正に実施するためには、IT人材の不足などさまざまな困難が伴います。適切なソリューションを導入することで、これらの困難を解決することが可能です。
NTTコミュニケーションズが提供する「データ統合インフォマティカ ソリューション」は、企業のデータ利活用における課題を解決するソリューションです。その他、データマネジメントに関する全体設計や、各種ツールとの連携方法などの提案もさせていただきます。データ運用におけるご不安の多い企業様にも安心してお使いいただけます。ぜひ導入をご検討ください。

こちらもチェック!
あわせて読まれている おすすめ記事

Smart Data Platform は、
お客さまのデジタル課題に合わせた
最適なサービス・プランの組み合わせを
ご提案することができます

新規導入のご相談やお見積、サービス仕様など
ご不明な点があればお気軽にお問い合わせください

お問い合わせ

お問い合わせ

このページのトップへ