コラム

ビッグデータとは?定義や活用方法を解説#001

ヘッダー画像

医療・小売・教育など、さまざまな業界・業種で「ビッグデータ」の利活用が進んでいます。
たとえば、医療業界では新薬開発の際のエビデンスの構築や、自社製品の需要予測などでビッグデータが活躍しています。

そもそも、ビッグデータとはどんなデータのことでしょうか。
従来のデータとは、どんな点で違うのでしょうか。

この記事では、まずビッグデータの歴史や分析方法を解説したうえで、ビッグデータの活用シーンを紹介します。
ビッグデータを正しく活用すれば、従来のデータ分析では見えなかったニーズの発見や需要予測が可能です。

ビッグデータの利活用に興味がある方は、ぜひ参考にしてください。

ビッグデータとは?ビッグデータの理解に欠かせない「3つのV」

ビッグデータとは何か?定義や活用方法を解説

ビッグデータとは、ある目的のため、大量かつ多種類に渡って集められたデータのことです。
総務省の「平成24年版 情報通信白書」では、ビッグデータを「事業に役立つ知見を導出するためのデータ」と定義しています。[注1]

たとえば、全国の医療機関のカルテやレセプトをまとめた「医療ビッグデータ」が、ビッグデータの一例です。
まずは、ビッグデータと従来のデータの違いや、ビッグデータの歴史を振り返ってみましょう。

[注1]総務省:平成24年版 情報通信白書

https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/pdf/24honpen.pdf

ビッグデータと従来のデータの3つの違い

ビッグデータと従来のデータの違いは、「3つのV」で表せます。

従来のデータ ビッグデータ
量(Volume) 既存のデータベースシステムで問題なく処理できるデータ量 データ量が数十テラバイトから数ペタバイト以上に達し、既存のデータベースシステムでは処理できない
種類(Variety) CSVファイルとExcelファイルのように、データベースシステムのテーブル(「列」と「行」)で表現できる構造化データのみ 文書・画像・音声・動画、さらには検索履歴や閲覧履歴など、さまざまなデータ形式の非構造化データもふくむ
速度(Velocity) データの取得・分析は、リアルタイムには行われない 交通情報や金融情報など、データがリアルタイムに更新されるため、すばやく取得・分析する必要がある

データサイエンスでは、このような大量(Volume)かつ多種類(Variety)でリアルタイム性の高い(Velocity)ビッグデータを取り扱うために、情報科学や統計学を駆使し、データの利活用を発展させてきました。

ビッグデータの歴史は?「ビッグデータ元年」までの流れ

日本のメディアで「ビッグデータ」という言葉が使われはじめたのは、2010年代からです。
2011年は「ビッグデータ元年」と呼ばれ、ビッグデータの利活用が大きく進んだ年になりました。

日本の企業でも、インターネットを流れるデータを分析し、市場や世の中の動向を分析しようとするムーブメントが生まれました。

そのムーブメントが一気に加速したのが、2010年代の高性能な「インメモリデータベース」の登場です。
インメモリデータベースにより、従来とは桁違いに大量かつ多種類なビッグデータを分析できるようになり、現在に至るビッグデータの利活用の道が開けました。

ビッグデータの代表的な分析方法5つ

データサイエンスの発展により、さまざまな方法でビッグデータを分析できるようになりました。
ビッグデータの代表的な分析方法を5つ紹介します。

1.ビッグデータを属性ごとに仕分け、分析をする「クロス集計」

クロス集計とは、ビッグデータを属性ごとに仕分ける分析方法です。
たとえば、マーケティングを目的として集めた顧客のビッグデータを、年齢・性別・出身地・学歴・職業などの属性で仕分けることで、そのまま分析するよりも取り扱いやすくなります。

属性ごとの傾向やニーズを発見しやすいため、マーケティングのほか、新薬開発や世論調査などでも広く使われている分析方法です。

2.ビッグデータをグループごとに仕分け、分析を行う「クラスター分析」

クラスター分析は、クロス集計とよく似ていますが、どんな基準でビッグデータを仕分けるかが違います。
クラスター分析では、「クラスター(集団)」に基づいてビッグデータを仕分けます。

クラスターとは、年齢・性別・出身地・学歴・職業といった属性ではなく、好みや志向性など、データとしての近さ・類似性に基づいて仕分けられた集団のことです。

たとえば、顧客の購買履歴を分析し、「新商品の購入頻度が高い」という類1似性を持つクラスターを発見したとしましょう。
クラスター分析の結果から、そのクラスターに対しては、新製品の情報をお薦めするのが有効だとわかります。

このように、クラスター分析は、マーケティングやブランディングなどを中心に活躍している分析方法です。

3.ビッグデータの相関関係の分析に長けた「アソシエーション分析」

ビッグデータほどの大量かつ多種類のデータでは、人間の目で見ても相関関係がわからないケースが多々あります。
ビッグデータの相関関係の分析に長けているのが、アソシエーション分析です。

マーケティングの分野では、マーケットバスケット分析と呼ばれることもあります。
アソシエーション分析は、分析対象のデータセットを変数ごとに分類し、頻出するものを抽出することで、相関関係を導きます。

さらに、抽出したクラスターに対し、クラスター分析をして、クラスターごとの特徴を分析するケースもあります。

4.事象の発生確率を予測する「ロジスティック回帰分析」

ロジスティック回帰分析とは、さまざまなビッグデータの分析結果から、ある事象の発生確率を予測する分析方法です。
ロジスティック回帰分析をすることで、事象の発生確率が1(発生する)から0(発生しない)までのどのレベルなのか、数値的に表現することができます。

ロジスティック回帰分析は、たとえば病気の発生確率の予測など、さまざまなシーンで活躍しています。

5.事象の発生要因をツリー状に分析する「決定木分析」

ロジスティック回帰分析と違い、事象の発生要因をさかのぼって分析することができるのが、「決定木分析」と呼ばれる分析方法です。
決定木分析では、クロス集計を繰り返し、事象を属性ごとに細分化していきます。

たとえば、ある商品の売上が多い地域がある場合、そのデータをさらに年齢・性別・職業といった属性ごとに細分化します。
その結果、「その商品の売上が多いのは、商品の販売地域に、特定の職業の男性が多いからだ」といった発生要因がわかります。

決定木分析という名称がついているのは、クロス集計を繰り返した結果、データがツリー状に整理されるためです。

ビッグデータの3つの活用事例

2011年の「ビッグデータ元年」以来、ビッグデータはさまざまな業界・業種で利活用が進みました。
ここでは、ビッグデータの活用事例を3つ紹介します。

1.医療業界:製薬会社の新薬開発に効果を発揮

近年、もっともビッグデータの利活用が活発な分野が、医療業界です。
医療業界では、全国の医療機関のカルテやレセプトをまとめた「医療ビッグデータ」を分析しています。

カルテやレセプトには、厚生労働省の「DPCデータ」などの統一規格があることも手伝い、ビッグデータの利活用が急速に進みました。
医療業界でのビッグデータの活用事例として、たとえば製薬会社の新薬開発があります。

通常、新薬開発では治験を実施しますが、安全性を確認するためには大規模な疫学研究から得られるエビデンスが必要です。
そこで、医療ビッグデータを活用し、治験では確認しきれない効果や副作用を発見しています。

また、新薬は研究開発から販売までに時間がかかるため、自社製品のフォーキャスティング(需要予測)が欠かせません。
ビッグデータを分析すれば、市場の成長や新薬の売上を予測でき、「どんな新薬が期待されているか」を早期発見できます。

2.小売業界:マーケティング施策の最適化に貢献

小売業界では、マーケティング施策の最適化にビッグデータが役立っています。
とくに、ビッグデータを分析して顧客をセグメント化し、見えない需要を発見した事例が数多くあります。

たとえば、自動販売機メーカーの事例では、顧客の目線の動きをデータ化したアイトラッキングデータを分析し、顧客が商品を購入することが多い陳列場所を発見しました。
従来のデータ分析では顕在化しにくいニーズであっても、ビッグデータなら発見できます。

3.教育業界:学生の特性に合わせた教育の実現へ

教育業界では、学生の特性にパーソナライズされた教育を実現しようという動きが強まっています。
とくに教材設計においては、さまざまな教育データを分析し、学年や勉強の進度に合った学習教材の作成に役立っています。

また、子どもの学習記録を分析して、将来的な成長曲線を導き出し、教育研究に役立てている事例もあります。

ビッグデータについてよくある質問

質問1:ビッグデータと従来のデータはどのように違うのでしょうか?

ビッグデータについては、量ーデータ量が数十テラバイトから数ペタバイトと大きい、質ー画像や検索履歴などさまざまなデータ形式の非構造化データも含む、種類ーデータがリアルタイムに更新される、という3点で従来データとの違いがあります。

質問2:医療業界でよく使われる分析手法はなんでしょうか?

マーケティングを主の目的とした「クロス集計」、病気の発生確率の予測などのための「ロジスティック回帰分析」、などがございます。

質問3:ビッグデータにはどのようなメリットがあるのでしょうか?

ビッグデータの活用により、大量かつ多種類に渡るデータの取得が可能となります。
例えば、医療ビッグデータの活用により患者全体の医療情報を用いることで、医薬品の安全対策の向上や最適な治療方法の分析などができるメリットがあります。

質問4:誤字や表記ミスなどの不完全なデータでもビッグデータとして活用できるのでしょうか?

基本的には誤字や表記ミスも含めたデータをビッグデータと定義し、活用されておりますが、データのクオリティも昨今では求められており活用のプロセスで条件や定義の詳細を検討することが肝要です。

質問5:ビッグデータの分析にBIツールは不可欠でしょうか?

BIツールを利用することで膨大なデータから必要な情報を即座に引き出し、分析ができるため、現状の課題の早期解決を目指して対応することが可能であると考えます。

まとめ

ビッグデータの定義や活用方法を理解し、課題解決に役立てよう

ビッグデータとは、ある目的のために集められた、大量かつ多種類のデータです。
データサイエンスの発展にともない、ビッグデータは「クロス集計」「クラスター分析」「アソシエーション分析」「ロジスティック回帰分析」「決定木分析」といった方法で分析できるようになりました。

ビッグデータは医療、小売、教育など、さまざまな業界・業種で活躍しています。
ビッグデータの定義や活用方法を理解し、課題解決に役立てましょう。

page top