データマイニングとは
データマイニング
データマイニング(Data Mining)とは、大量の生データ(集約加工される前の個々のデータ)の中から、人間にとって価値のある傾向や関係などの情報を、自動的に見つけ出す手法の総称です。マイニングとは、鉱山などで鉱脈から採掘すること。データの山から人間にとって有意義な情報を発掘することをたとえて、データマイニングと言われるようになりました。
企業内におけるIT(Information Technology)活用に関するキーワードの一つであり、国内では1995年頃より注目され始めました。
企業におけるIT活用の方向性としては、従来までは「データの処理」に注力されていました。すなわち、もともと人間が行ってきた様々な定常業務における情報の処理をコンピュータに代行させることにより、高速性や正確性のメリットを享受しようとするのがその主目的でした。これは結果的に、企業内におけるデータの電子化及び集約化をもたらすことになりました。そこで次の発想として出てきたのは、このように集められたデータを単に定常処理の情報ソースとして使用するだけでなく、そこから人間に分かりやすい形でデータを取り出し、意思決定の材料として提供しようと言う考えです。
つまり、データの処理方法ではなくデータ自体が有する価値に注目することです。この結果、DSS(DecisionSupport System,意思決定支援システム)の概念が生まれ、関連したソフトウェア製品が開発されました。これは、保管されているデータの分布をグラフィックに表現したり、多変量解析を用いてデータ間の相関チェックや回帰分析を行うソフトウェア製品の総称です。基本的にはデータを理解しやすい形で表現しますが、その結果から意思決定に役立つ情報はユーザ自らが知見することが前提であり、仮説検証のためのツールと言えます。昨今普及し始めたOLAP(On-Line Analytical Processing,オーラップ)ツールも、利用方法からみると仮説検証のためのソフトウェアです。
一方、企業にとってのデータ活用のニーズとしては、特にマーケティングなどの分野では更にきめ細かいデータ分析、例えば顧客1人ずつの特性に着目した購買分析などが要求されるようになりました。結果的には、分析対象となるデータも集約値ではなく、個々の生データが対象となってきています。このような膨大なデータにおいて仮説検証型の分析は限界があり、データに埋もれた有意義な情報を「掘り起こす」ために、データマイニング技術が注目されるようになりました。
データマイニングは、意思決定支援という意味からはDSSの一種ですが、次の点で従来のDSSとは異なります。
- 仮説検証ではなく、データに隠れている法則やパターンを自動的(発見的)に見つけること。
- 集計値(月間売上げ集計、地区別製品販売数など)ではなく、個々の生データに着目して分析を行うこと。
- 従来型多変量解析では取り扱いが難しい、非線型な関係をモデル化できること。
- 大量データ(数百万件以上)を直接使って分析できること。
上記のような特徴を生かし、情報系データの蓄積が他産業に比べて比較的早くから行われてきた金融、流通などの分野を中心としてデータマイニングが利用され始めています。
予測モデル
ある現象を予測するために、事前に得られる様々なデータからみちびかれた、結果を予測するための数式、条件式などです。
世の中では、気象予測、経済予測、株価予測など、さまざまな事象がモデル化されています。競馬の世界でも、西田式スピード指数、レーティング指数など様々な数式や指数が、勝敗予想のために用いられていますが、これらも予測モデルの一種といえるでしょう。