データマイニング技術を用いたシステム開発

AI(人工知能)の重要技術のひとつであるデータマイニングは、ビッグデータのなかから有用な情報を採掘(マイニング)します。この技術を用いたシステム開発の方法と、データマイニングによって何ができるのかを解説します。


AI(人工知能)の重要技術のひとつに、データマイニングがあります。単なるデータの集まりでしかないビッグデータから、有用な情報を採掘(マイニング)する手法です。
データマイニングがどのようにシステム開発に用いられ、データマイニングとAIが合体することで何ができるのかを解説します。

「採掘」するには「倉庫」に保管して「洗い出す」必要がある

膨大なデータのなかから、有用な情報を「採掘」(データマイニング)するには、その前に、データを「倉庫」(データウェアハウス)に保管して、「洗い出す」(クレンジングする)必要があります。

川から砂金を取り出すとき、まずは川の土砂を大量に確保して、次に、少量の土砂を取り出して、丁寧に不要な物質を取り除き、小さな金を取り出します。
データマイニングも、砂金取りと似た工程を経ることになります。

データウェアハウスとは

データは、パソコンやスマホやテレビや企業や家庭など、さまざまな場所で発生します。そして、誕生したデータは、インターネットや公共電波や電話回線や広告や媒体など、さまざまなルートを通過して流通します。
このままでは、データは生まれて流れていくだけなので、使いようがありません。

データマイニングするには、まずは、さまざまな場所やさまざまなルートから、大雑把に大量にデータを集めてこなければなりません。
集めたデータを保管する場所のことを、データウェアハウスといいます。

例えば、ある企業では、総務部、経理部、開発部、営業部、販売部がばらばらにデータを保有していたとします。この状態では、経営戦略づくりに必要な情報を獲得するためのデータマイニングは実行できません。
そこで、各部から情報を集めるために、企業内にデータウェアハウスを構築する必要があります。

データウェアハウスは、データベースと似ていますが、使われ方が異なります。
データベースには、すでに整ったデータが入っています。つまり、総務部にも経理部にも開発部にもデータベースがあり、各部のスタッフがそのデータを使って仕事をしています。

データウェアハウスはいわば「何でもいいからとりあえず入れておけ」といったニュアンスの、雑多な倉庫です。「とりあえずすべての部にあるデータを、全社統一のデータウェハウスに入れておく」イメージです。
データウェアハウスのなかのデータは整理されてなく、そのままでは使えません。

データのクレンジングとは

データウェアハウスのなかの情報は、まったく整理されていない状態にあります。この状態でデータマイニングを行っても、効率が上がりません。

例えば資源ごみは、プラスチック、ペットボトル、ビン、缶、紙にわけて回収することで、効率的に再生できます。これと同じように、データウェアハウス内のデータは、まずは整理する必要があります。
それが、データのクレンジングになります。

例えば、開発部は「女性関連のデータ」に「F」を付けていて、営業部は「女性関連のデータ」に「女」と付けていたとします。クレンジングでは「データに付いている『女』を『F』に変換する」といったデータの加工を行います。
その他、全角を半角に統一したり、漢数字を算用数字にしたり、重複の削除、誤記の修正、区切り記号の統一などを行います。
これをデータ形式の「正規化」といい、クレンジングの重要な手順です。

データマイニングの3つの分析方法

データマイニングにはいくつか手法がありますが、ここでは次の3つの分析方法を紹介します。

*マーケット・バスケット分析
*クラスター分析
*ロジスティック回帰分析

マーケット・バスケット分析

マーケット・バスケット分析は、マーケティングでよく使われる手法です。小売店のレジで集めたPOSデータや、Eコマースの売買データ、クレジットカードの買い物データなどから、一緒に買われた商品の情報を抜き出して分析します。
消費者や顧客の買い物かご(マーケット・バスケット)を覗かせてもらうわけです。

最も単純なマーケット・バスケット分析は、「シリアルと牛乳は同時に買われることが多い」というものです。スーパーマーケットがこの分析結果を得れば、シリアル売り場を、乳製品売り場の近くにつくることで売上増を期待できます。

マーケット・バスケット分析は金融業界でも有効です。ある投資信託を購入する顧客は、別の特定の投資信託を購入しやすいことがわかれば、営業担当者は2つの投資信託を顧客にすすめることで営業を効率化できます。

クラスター分析

クラスターは集団という意味です。大量かつ雑多なデータは、まずは似た性質を持つ「クラスター」にわけたほうが、分析しやすくなります。
例えば回転寿司店であれば、寿司ネタを「マグロ系」「青魚系」「海老・貝系」「イカ・タコ系」「軍艦系」といったクラスターにわけていきます。
こうすれば、「大トロは単価が高いので売上高に貢献するが、仕入値が高いので利益には貢献しない。赤身は売上高への貢献は小さいが、利益への貢献度が高い」といった分析をすることができます。
さらに「マグロ系は仕入れ値の変動が激しいが、近海で獲れる青魚系は天候が悪化すると仕入れにくくなる」といったように、クラスターごとに分析することもできます。

ロジスティック回帰分析

ロジスティック回帰分析は、発生確率を、複数の変数によって説明する方法です。
ある大学病院では、体重が2,500グラムを下回る赤ちゃんが生まれる確率を、ロジスティック回帰分析で推測しました。「複数の変数」には、母親の年齢、体重、喫煙習慣、高血圧の有無、過去の早産の経験の有無、子宮関連の病歴の有無などを使いました。
ロジスティック回帰分析をすることで、リスク対策や予防策を講じることができます。

また、コンビニであれば、顧客がおにぎりを買う確率を、ロジスティック回帰分析で推測できます。買い物時間、ウーロン茶の購入の有無、天候、季節などが「複数の変数」になります。おにぎりを買う確率を正確に推測できれば、おにぎり工場での生産量を調整でき、廃棄ロスを減らすことができます。

AIによるデータマイニング活用例

データマイニングはこれまで人の「手と目と頭脳」で行なっていました。例えばスーパーマーケットの店長が朝礼で「今日は総菜が売れそうだ」と言えば、総菜部門が大量につくり始める、といったようにです。
また、行列ができるような人気パン店のパン職人は、気温や湿度などから、小麦粉に混ぜる牛乳の量や発酵時間や焼く時間を調整します。

しかし、こうしたデータマイニングは、AIがかなり「肩代わり」できるようになりました。
AIによるデータマイニングのメリットは、長年の経験も鋭い勘も必要ないことです。データを入力すれば、AIがデータマイニングして、有用な情報の洗い出しや、将来予測をしてくれます。
アルバイト店長でもスパーマーケットの売上高を最適化できるかもしれませんし、新人パン職人でもおいしいパンを焼けるようになるでしょう。

データと便利をつなぐ

AIを有効活用するにはデータマイニングの知識が欠かせませんし、データマイニングの効果を高めるにはAIの進化が欠かせません。
大量のデータを集めないと、使える情報は入手できません。しかし、データは大量にあるだけでは使いようがありません。しかも、データ量が増えれば増えるほど、解析が難しくなります。
大量のデータ処理を簡単に実行するのがAIですが、ユーザーが必要とする情報に加工するには、データマイニングの技術が必要になります。
データマイニングは、「そこにある」データと「今ほしい」便利さをつなぐツールといえそうです。