コラム

データマイニングとは?考え方・分析手法・活用事例をわかりやすく解説 #122

ヘッダー画像

 データマイニングは、膨大なデータの中から価値ある知見を見つけ出す手段のことであり、ビジネスから医療まで幅広い分野で注目を集めています。

ここでは、データマイニングの基本的なことから主な手法、業界ごとの事例、実際の進め方やツールの選び方までを説明します。

自社での活用や製薬分野への応用を知る手掛かりとしてお役立てください。

データマイニングの基礎

 データマイニングは、膨大なデータの中から隠れたパターンや規則性を発見し、次の意思決定に役立つ情報を得る手法です。

データマイニングとは

 データマイニングは、膨大なデータの中から隠れたパターンや規則性を発見し、次の意思決定に役立つ情報を得る手法です。

統計学、人工知能(AI)、機械学習、パターン認識などの技術を組み合わせることで、人間の目では気づきにくい関係性を見出すことができます。 一般的な例としては、購買履歴データから「どの商品が一緒に購入されやすいか」を導き出したり、SNSの投稿からトレンドを検出したりすることなどが挙げられます。

データマイニングの目的とメリット

 データマイニングの目的やメリットは、膨大なデータを新しい価値の創出につなげることです。

適切に活用できれば、従来は担当者の経験や勘に依存していた部分を、より客観的で再現性のある根拠として他の担当者でも示しやすくなります。

人間が想定していなかった法則性を発見することで、新しいビジネスモデルや研究テーマを生み出せる可能性があるでしょう。

実務的なメリットとしても、業務効率化やリスク低減、顧客満足度の向上などが想定されます。

医療データでの応用例

 医療分野では、電子カルテ、画像診断データ、ゲノム情報、治療実績など多様なデータを解析することで、疾患リスクの予測や診断精度の向上、個別化医療の実現に役立ちます。

厚生労働省の報告書でも、画像診断ではAIを活用することで見落とし率の低下や、ゲノム解析との組み合わせで創薬ターゲットの探索などに応用された例が紹介されています。

データマイニングでできること

 ここからはデータマイニングでできることを説明します。

データ間の関連性を見つける前に、まずは膨大なデータを分類して使いやすくし、関連性を発見した後は将来の傾向や結果を予測することができます。

データの分類・グループ化

 基本的な活用方法の一つは、膨大なデータをルールに従って分類・整理し、使いやすい状態に整えることです。

医療分野では、症状や年齢、治療経過などの患者データを分類・グループ化することにより、さまざまな方向性に対して利活用がしやすくなります。

データ間の関連性を見つける

 データマイニングでデータ間の関連性を見つけるための代表的な方法には、マーケット・バスケット分析が挙げられます。

この分析方法では、ある事象と一緒に発生する事象の組み合わせを発見することが可能です。

日常的な例としては、「ハンバーガーを買う人はポテトも買うことが多い」などが挙げられます。

医療分野では、「特定の疾患を持つ患者は別の病気を併発しやすい」といった相関関係を発見することなどにつながるでしょう。ただし、相関関係を因果関係と取り違えないように注意する必要があります。

将来の傾向や予測を立てる

 データ間の関連性を見つけた後は、それらを将来の傾向や予測に役立てることができます。

過去のデータと関連性を分析して、将来の売上動向や需要変動、発症リスクなどの予測モデルを構築し、評価することが可能です。

例えば医療分野では、特定の検査値の変化により、ある合併症が発症しやすくなるなどの予測ができるでしょう。

データマイニングの主な手法

 上述のデータマイニングでできることを深掘りすると、その手法についての理解が欠かせません。

実際に進める際には、目的に応じていくつかの手法を組み合わせて活用します。

ここでは分類やクラスタリング、アソシエーション分析、回帰分析といった代表的な手法4つを説明します。

【分類(Classification)】グループ分け

 分類は、あらかじめ決められたカテゴリにデータを割り当てる手法です。

医療分野を例にとると、複数の患者データに対して、ある要素を基準に分類してグループを作成することなどが可能です。

【クラスタリング(Clustering)】類似データをグループ化

 クラスタリングは、データの類似性を軸にグループ分けする手法です。

例えば、購買履歴のデータから「価格に敏感な顧客群」や「ブランド志向の強い顧客群」などに分類するマーケティングの例が当てはまります。

また、上述の分類と似た印象を持つ人も多いですが、両者は異なるものです。 分類は分けた先のカテゴリをあらかじめ決めているのに対して、クラスタリングは教師なし学習であり、類似性を頼りにグループを分けます。

【アソシエーション分析(Association)】関連データの関係性を抽出

 アソシエーション分析は、データの中に見られる関連法則を発見する手法です。

上述のマーケット・バスケット分析がこれに該当します。

小売業の有名な例として、オムツを購入する人の中にビールも購入する人が多いことが発見された、オムツとビールの購買相関が典型です。 アソシエーション分析で患者に見られる法則性を見つけることができれば、研究開発やマーケティングにおいて新たな価値創出ができる可能性があります。

【回帰分析(Regression)】将来の結果を予測

 回帰分析は、複数の要因からある未来の結果を予測する手法です。

例えば、患者の年齢や検査値の組み合わせを設定し、その後の疾患リスクを予想する等の応用が考えられます。

必ずしも予測通りになるとは限りませんが、回帰分析による予測データがあることで、企業がとるべき行動が判断されやすくなります。回帰分析は前提条件を満たす必要がありますが、これらを無視すると誤ったモデルとなり、予測結果の信頼性が大きく損なわれる危険性があります。

【業界別】データマイニングの活用事例

 データマイニングは幅広い業界で導入されており、それぞれの特性に応じた活用が進んでいます。

ここでは、小売・EC、製造・物流、金融・保険、教育・公共といった主要分野での具体的な事例を取り上げ、データマイニングがどのような付加価値を業界ごと生み出しているのかを紹介します。 各業界での取り組みを知ることで、日々の業務への応用方法がイメージしやすくなるでしょう。

小売・EC業界での活用事例

 小売やECの現場では、購買データや顧客行動データを分析することで、販売戦略や在庫管理に良い影響があります。

購買履歴やアクセスの時間帯などから、購入する確率が高いと考えられる商品を提示するレコメンド機能などは、データマイニングの効果として代表的なものです。

適切に商品をおすすめすることは単なる売上アップだけでなく、無駄な在庫を抱えないことにもつながります。

製造業・物流業界での活用事例

 製造業ではフォークリフト操作時の危険予知、また、検品時に人の手による物品コードの入力など、異常を検知すべきときにデータマイニングが活躍します。

また、物流では、配達ルートの最適化にデータマイニングが役立ちます。

GPSから得られたデータを分析することで、より適切な配達ルートが発見される可能性があるでしょう。

金融・保険業界での活用事例

 金融業界では、データマイニングは不正利用検知やリスク管理に欠かせない技術となっています。

例えば、クレジットカードの利用履歴を解析すれば、通常とは異なる取引パターンを発見することにつながり、不正利用の検知につながります。

保険業界では、契約者の年齢や生活習慣、健康診断データを分析することで、保険料の算定や新商品の開発に役立ちます。

対象者の情報がわかれば住宅ローンや消費者ローンの審査においても活用できるため、融資の可否を予測することも可能です。

教育・公共分野業界での活用事例

 教育分野では、データマイニングにより、学習履歴やテスト結果を分析し、生徒一人ひとりに合った学習指導を実施することができます。

また、公共分野では、過去の気象データを分析できることから、天気予報にデータマイニングが活用される例もあります。 交通データや人口動態データを活用することで渋滞予想が可能となり、混雑の緩和にも応用できます。

データマイニングの基本的な進め方 〜医療業界での事例を踏まえて〜

 効果的なデータマイニングをするためには、データの収集から分析結果の改善まで、一連の流れで進めることが大切です。

ここでは、一般的な進め方を4つのステップに分け、医療業界での具体的な事例を交えて解説します。

1. データを収集する

 最初のステップは、目的に合ったデータを集めることです。

データマイニングで何を知りたいかテーマを決めた後は、それらを見つけられそうなデータに目星をつけて、集めることがスタートとなります。

例えば医療分野では、電子カルテ・検査結果・画像診断・処方・ゲノム情報などのデータが対象です。 対象となるデータの入手が困難な場合はデータマイニングのゴールを見直すことも視野に入れます。

2. 収集したデータの加工・前処理をする

 収集したままのデータにはノイズや欠損値が含まれることがあるため、分析前には前処理(データクレンジング)をします。

医療分野では、診断名の表記揺れの統一や、値を補正する作業が挙げられます。

特に、プライバシー保護のための匿名化や個人情報の削除といった処理も不可欠です。

AIなどの分野では、Garbage In, Garbage Out(ゴミを入れたらゴミが出てくる:GIGO)という考え方があります。

そのため、もし前処理を怠ると、得られる分析結果の質が落ちることにもつながるでしょう。 前処理は手作業だけでなく、データクレンジングソフトなどの活用も可能です。

3. 加工したデータから分析・分析データの可視化をする

 前処理が済んだデータに対して、クラスタリングや回帰分析、アソシエーション分析などの手法を用いて実際に分析します。

ツールを用いて、分析手法を設定し、データ分析から可視化までします。

4. 分析結果の評価・改善をする

 分析結果をわかりやすい形にした後は、そのデータから何を読み取り、どのような行動を起こすかを決める必要があります。

ここに辿り着くまでに、結果次第でどう動くかを想定しながら分析を進めておくと、評価や意思決定がスムーズになるでしょう。

また、分析をしたからといって必ず行動を起こす必要もありません。

結果次第では、その時点で何もしないという選択肢もあることを覚えておくのも良いでしょう。

データマイニングツールの選び方

 最後にデータマイニングツールの選び方について説明します。

現在は多くのツールが提供されており、機能やコストなどもさまざまです。

導入前に検討すべき代表的な観点を整理し、特に医療分野での活用にあたって注意すべきポイントも補足します。

予算を決めてその範囲内で選ぶ

 まずは予算を決めて、導入時とその後の月額費用や、人件費などを計算することをおすすめします。

無料で利用できるものや月額費用が数千円で済むものもあるため、それらで試算したり、トライアルを申し込んでみたりすると良いでしょう。

汎用ツールと業界特化ツールの違いで選ぶ

 データマイニングツールには、業界を問わず使用できる汎用型と、特定の業界や用途に特化したものがあります。

業界特化ツールは医療や製造業など、特有のデータ処理や分析手法をあらかじめ備えています。

業界に合わせた悩みを解決したい場合は、業界特化ツールを検討すると良いでしょう。

クラウド型とオンプレ型かで選ぶ

 ツールの導入形態には、クラウド型とオンプレ型があります。

クラウド型は初期費用を抑えやすく、必要に応じてスケールアップできる柔軟性が特徴で、リモートワークや複数拠点での共同利用にも向いています。

オンプレ型は自社サーバーに構築するため、クラウド型よりもセキュリティやカスタマイズ性に優れていますが、初期導入費用や維持管理コストが高くなる点に注意が必要です。

機密情報が多い業界であればオンプレ型がすすめられますが、データマイニングの目的や企業規模にも依存します。

補足 | 医療データ向けツールのポイント

 医療分野でツールを選ぶ際には、医療分野向けの分析ツールであり、目的に合ったものを選ぶ必要があります。

ツールの中でも、感染症制御や副作用リスクの分析に使用しやすいものがあるため、目標を明確にしたうえで、それらを解決することができそうなツールを探すことがポイントになるでしょう。

そのうえで、情報漏洩や法的リスクに備えたツールを選ぶことが大切です。

分析に使用する診療データにはセンシティブな個人情報が含まれるため、法令を遵守するうえで、暗号化など匿名加工の機能は必要不可欠です。

まとめ

 データマイニングはビジネス分野だけでなく、医療分野では診断精度の向上や新薬開発にも役立っており、その重要性は高まっています。

ツール選定においてはコストや用途、導入形態に加え、医療データ特有の安全性・規制への対応が求められます。

データマイニングを正しく活用して、業務効率化や新たな価値の創出に役立てることが大切です。


【監修者】岡本妃香里

2014年に薬学部薬学科を卒業し、薬剤師の資格を取得。大手ドラッグストアに就職し、調剤やOTC販売を経験する。2018年にライター活動を開始。現在は医薬品や化粧品、健康食品、美容医療など健康と美に関する正しい情報を発信中。医療ライターとしてさまざまなジャンルの記事執筆をしている。

【執筆者】吉村友希

医薬品開発職を経て医療ライターに転身。疾患・DX/AI・医療広告・薬機法など、医療と健康に特化した記事制作を担当。英語論文を活用した執筆やSEO対策も可能。YMAA認証取得。

page top