データ統合で必要な「データ加工」の方法とは?

データ統合には単にデータを集めるだけではなく、「活用しやすいかたち」に整えることが求められます。そして、この役割を担うのがデータ加工です。データ加工はデータ分析・活用の精度に直結するため、データ統合プロジェクトにおいても非常に重要な工程です。ここでは、データ加工の目的や具体的なステップについて解説します。

1. データ統合前の必須工程「データ加工」

1. データ統合前の必須工程「データ加工」

まず、データ統合の概要と目的、データ加工のメリットについて整理しておきましょう。

1-1. データ統合の概要と目的

一般的にデータ統合とは、企業内に点在する業務データをひとつの場所に集約し、活用しやすい形式で保管することです。データ統合によって、専門知識を持たない人材でもデータを活用しやすくなるため、業務効率化や付加価値の創出などが期待できます。

データ統合では、基幹システム(ERPなど)や業務システム(CRM、SFA、IoT、その他外部システムなど)から得られるデータを集約します。このデータには、構造化データと非構造化データが含まれるため、それぞれの活用目的に合わせた形式に加工しなくてはなりません。

近年は、あらかじめ加工されたデータを「保管庫(データレイクなど)」に蓄積し、活用目的に合わせて抽出することが多いでしょう。ここで使われるツールとしては、データの場所を特定する「データカタログ」、データ加工・変換用に用いられる「ETL(Extract Transform Load)」、より直感的にデータ加工・変換が可能な「データプレパレーションツール」などが挙げられます。各業務担当者はこうしたツールを用いて、自らの業務に必要なデータを見つけ出し、適宜加工しながら活用していくことになります。

このように、データ統合の目的は「データ活用」であり、そのためには「形式が統一されていること」「フォーマットが守られていること」「不正値や欠損値などが補われていること」などが求められます。これがデータ統合にデータ加工が必要とされる理由です。

1-2. データ加工のメリット

次に、データ加工のメリットを確認しておきましょう。データ加工は「生産性」「データ分析精度」「データドリブン経営の精度」において、プラスの効果をもたらします。

生産性向上
頻繁にデータを扱う業務では、データの質によっては「無駄」を生み出してしまいます。データの形式が統一されていなかったり、文字化けや文字抜けが多かったりするデータに対しては、常に修正作業が発生します。この修正作業は手作業で行われることが多いでしょう。また、データを検索・抽出しにくいシステムは、ユーザーにストレスを与えてしまいます。一方、データ加工が適切になされているシステムでは、こうした作業・ストレスの発生を抑えることが可能です。その結果、業務担当者がコア業務に投下できるリソースが増え、生産性の向上が期待できるのです。

データ分析精度向上
データ分析は、今や企業の成長を支える重要な業務です。顧客ニーズの発見、製品・サービスの評判、改善点、競合各社の動きなどは、データ分析によって最適化が進められています。こうした分析は、主にAIやBIツールを用いて行われます。しかし、投入するデータの質が悪ければ、AIやBIツールは真の効果を発揮できないでしょう。

データに欠損値や異常値が多い場合、そのデータを用いた分析は不可能に近いです。また、たとえ内容に誤りはなくとも、常に変換処理が必要なデータの分析には、相応の時間とコストがかかります。一方、あらかじめ適切にデータ加工がおこなわれている環境では、信頼に足る結果を少ないコストで得ることができます。データ加工は、最終的にユーザーが触れるAIやBIツールへの最適化という意味でも、有用な施策なのです。

データドリブン経営の精度向上
データドリブン経営とは、データに基づいた意思決定を企業活動に活かす経営手法です。データドリブン経営では、「事実の集合体であるデータをもとに分析を行う」「分析結果を経営戦略に反映させる」「経営戦略を具体化するシステムを構築する」という3つの工程をサイクルさせます。したがって、データ加工によって高いデータを得られるようになると、データドリブン経営の精度も向上すると考えられます。

特に、非構造化データを活用した意思決定が可能になることは、データ加工の大きなメリットです。人間が生み出す話し言葉、書き言葉の中から課題解決のヒントを得られるため、これまで埋もれていた知見や新たな着眼点を得られる可能性があるでしょう。

2. データ加工の具体的なステップ

では、一般的なデータ加工のステップについて解説します。

2-1. データ加工=データ統合の前処理

データ加工はデータ統合の「前処理」とも言える施策です。具体的には、次のようなステップを含むことが多いでしょう。

ステップ1:加工対象データの決定
まず、加工対象とするデータを決定します。現代の企業では、業務システムや従業員の個人PCなど、さまざまな場所にデータが存在しています。したがって、どの場所にある、どのようなファイルを加工対象とするかを、あらかじめ決定しておくのです。例えば、原材料・資金・人的リソースなど経営資源に関するデータであれば、基幹システム(ERP)を対象にします。同じように顧客に関するデータであればCRM、営業に関するデータであればSFAなどが対象になるでしょう。また、こうしたシステムの中には、同じ内容を示すデータが含まれることもあるため、どちらを正とするかの決定も必要です。

ステップ2:データのフォーマット統一
データの「ファイル形式」「文字コード」「データ型」などの組合せを決定します。例えば、csvファイルやxmlファイルでは、複数の文字コード(Shift-JIS、UTF-8など)を持つ場合があります。どのファイルでどの文字コードを扱っているかを精査し、加工ツールが読み取れる形式に統一していきましょう。また、データ型については「日付」や「通貨」などのルールを決定します。日付であれば「スラッシュの有無(2021/10/1か20211001か)」、通貨であれば通貨単位(日本円か米ドルか)などが挙げられるでしょう。このように、各データの足並みをそろえ、データを加工・変換するための土壌を創り上げていきます。

ステップ3:欠損値および異常値の検出と補正
加工対象データに対して、「欠損値の補完」「異常値の補正」を行います。何らかの事情でデータが正常に取得できていない場合には、データに欠損が発生するため、一定のルールを定めたうえで補完を行いましょう。また、本来取得すべきでないデータや想定しにくい値は異常値として考え、補正値を入力する必要があります。

ステップ4:重複データの削除と名寄せ(マッチング)
加工対象とするデータの中に重複が無いかをチェックし、削除や名寄せ(マッチング)を行います。特に、名寄せはデータ加工の中でも重要な工程です。名寄せとは、キーとなるデータを設定し、そのデータに関連する他のデータを紐づけていく作業です。名寄せを行うことで、同一の人物・事柄などに対するデータをリッチに仕上げていくことができます。また、データ統合後には、データの所在地を特定しやすくなるというメリットもあります。

具体的には、「共有キー」を設定し、それに紐づくデータを結合させていきましょう。この共有キーは、部門や部署に関わらず統一された値であることが望ましいです。さらに、共有キーに紐づくデータの調整も行います。データの調整作業としては「列構造調整」「行列構造調整」などが挙げられるでしょう。列構造調整ではデータを管理する列の数を、行列構造調整ではどの行のどの列からデータが開始されるのかの位置を調整していきます。

3. データ加工を効率化するソリューション

3. データ加工を効率化するソリューション

このようにデータ加工には複数のステップがあり、データの規模に比例して工数が肥大化しやすいというリスクもあります。そのため、データ加工に適したソリューションを利用する方法が一般的です。

ETL(Extract Transform Load)

ETLは、データ変換・加工処理を専門的に行うツールです。複数のシステムから抽出したデータを変換・加工したうえで、大規模なデータ保管庫(データレイクやデータウェアハウス)へ渡す処理を担います。ETLの強みは、大量のデータを自動的かつ高速に変換・加工できることです。ただし、運用にはプログラミングスキルやシステム開発スキルなどITの専門知識が必要になることも少なくありません。IT人材を十分に調達できる企業に適したツールと言えるでしょう。

データプレパレーションツール

データプレパレーションツールは、ITの専門知識を持たない人材でもデータ加工・変換が手軽にできることを目的としたツールです。プログラミングスキルやシステム開発スキルを持たない業務担当者を想定し、「直感的に操作しやすいUI」を採用していることが多いでしょう。また、加工ルールの決定などにプログラミングが必要ないことも特徴のひとつです。

匿名加工情報作成ツール

匿名加工情報作成ツールとは、プライバシーの保護とパーソナルデータの利活用を両立するためのツールです。2017年5月に施行された改正個人情報保護法に定められているように、企業が本人の同意なしで個人情報の目的外利用を行うためには、個人の特定につながらないようなデータ(匿名加工情報)を作成しなくてはなりません。しかし、こうしたデータの作成にかかる手間(選別・加工)やコストの大きさから、パーソナルデータの利活用が進まないケースが散見されます。匿名加工情報ツールでは、独自の加工・評価アルゴリズムによって、匿名加工情報の作成を効率化することが可能です。

4. おわりに

本稿では、データ加工の具体的なステップと、そこで役立つツールを紹介してきました。データ統合の目的は、データ活用の推進による経営の効率化です。しかし、ただ統合しただけではデータ活用に結びつかないため、ビジネスに落とし込みやすい形に整える工程が必要になります。この工程がデータ加工であり、データ統合とデータ活用をつなぐステップとして無くてはならないものです。もし本格的なデータ統合を予定しているならば、データ加工の方法についても具体化していくことをおすすめします。

こちらもチェック!合わせて読まれているおすすめ記事
こちらもチェック!合わせて読まれているおすすめ記事

Smart Data Platform は、
お客さまのデジタル課題に合わせた
最適なサービス・プランの組み合わせを
ご提案することができます

新規導入のご相談やお見積、サービス仕様など
ご不明な点があればお気軽にお問い合わせください

お問い合わせ

このページのトップへ