「カスタマージャーニー?KPIツリーって何?」
「ビジネスでデータ分析ってどうやるの?」
最近、ビジネスでのデータ分析・活用って良く耳にするようになりました。
ただし、データ活用はまだまだ進んでいません。
様々な理由が考えられますが、データ活用が進まない理由のひとつが、『翻訳家』の不在です。
ビジネス側と技術側の橋渡し人材(翻訳家)が不足しているんです。
そもそもデータ分析する目的は以下の3つになります。
- 再現性を高めるため
- 課題を定量的に検証するため
- 優先順位をつけるため
データを使う目的は「定量的に検証」するため。
ビジネスにおける影響度を定量的に把握しやすくなるため、「優先順位」もつけやすくなります。
さらに、データおよび分析の手続きが整備されていれば、再現性も高くなります。

そんなこと言われても、そもそもデータ分析のやり方が分からないんだけど・・・
今回は、ビジネスにおける橋渡し人材、翻訳家になるべくデータ分析の思考プロセスであるカスタマージャーニーやKPIツリー、データ分析の手法である統計学や機械学習についてざっくりご紹介します。
ビジネスでのデータ分析プロセスとは?
ビジネスでのデータ分析プロセスは以下の通り。
- 目に見えている「課題」らしい現象を整理
- 課題の仮説を考える
- 真の課題を掘り当てる
この3つのステップにより分析していきます。
現象を整理するフレームワークって何?
現象を整理するフレームワークには2つあります。
- カスタマージャーニー
- KPIツリー
それぞれ見ていきましょう。
カスタマージャーニー
カスタマージャーニーとは、顧客の行動や心理の動きを時系列で整理する手法。
時系列(フェーズ)を考え、フェーズごとに行動と心理を洗い出します。
例えば、お店でお客さんがモノを購入するまでのフェーズを分解します。
[timeline title=”カスタマージャーニー”]
[ti label=”STEP01″ title=”認知する”]
- 検索する
- チラシを見る
- 通りがかり
- 口コミ
[/ti]
[ti label=”STEP02″ title=”お店に行く”]
- 外観を見る
- 人の混み具合を確認する
[/ti]
[ti label=”STEP03″ title=”品物を探す”]
- 目当てのものを探す
- 気になる新商品を見つける
[/ti]
[ti label=”STEP04″ title=”購入する”]
- クーポンをもらう
- ポイントがつく
[/ti]
[/timeline]
以上の各フェーズを意識するのが大事です。
KPIツリーとは?
KPIツリーとは、漠然としたゴールを分解することで具体的にするための手法。
KPIは『Key Performance Indicator』の頭文字を取った略語であり、日本語に訳すと重要業績評価指標となります。
『Key Performance』とは『目標達成のカギ』。
『Indicator』とは、その訳語通り『指標』を指します。
KPIツリーでは指標の要素分解をしていき整理します。
例えば『売上が下がっている』という漠然とした現象は課題の仮説を考えにくい。
そこで、今見えている現象を細かく分解するんです。
『売上』は下記計算式で表すことが出来ます。
売上 = 平均単価 × 顧客数
計算(掛け算や足し算)で指標が求まることがポイントです。
- 掛け算:2つの指標を独立だと見なす
- 足し算:異なるグループ(セグメント)に分ける
良い分解とは、分解後の指標がアクション可能であること。
何かしらの打ち手によって影響を与えられる指標であることが重要。
KPIツリーはカスタマージャーニーを遡る形にするのがコツです。
分解につまったときは、指標名に『率』をつけて考えてみる。
分解後に打ち手(アクション)のイメージを持てるか確認する。
課題を特定するには?
では、課題を特定するにはどうしたらいいのか?
データをただ並べても分析は出来ません。
必要なことは『比較』を意識すること。
- ベンチマークと比較
- 時系列で比較
例えば、「購入率が低い」は課題ではなく現象です。
この現象が「なぜ起きているのか」について背後にある構造に関する仮説を立てる必要があります。
これを氷山モデルと言います。
「なぜ?」を繰り返して構造に関する数多くの仮説を考えます。
課題を深掘りできるかどうかが重要です。
この「なぜ?」に詰まった時は実際に現場を見てみるのが大事。
そして、「そもそも・・・」を使って確認してみるんです。
「外回りの営業マンはどのくらい来店するのか?」
そもそも・・・
「他にはどのような顧客が来店しているのか?」
そもそも・・・
「どのような顧客が来店しているのか理解する仕組みがない。」
そして、拡げた仮説の中から筋の良い仮説から検証していくのが重要です。
以上が、思考プロセスです。
- 目に見えている「課題」らしい現象を整理
- 課題の仮説を考える
- 真の課題を掘り当てる
データってどう集めるの?
では、データをどう集めるのか?
ビッグデータ時代の『データ』は量も増大し、多様化しています。
社内に十分なデータがあれば良いですが、不足しているデータは目的に合わせて収集しなくてはなりません。
社内だけでなく社外のデータにも目を向けて、組み合わせることで新たな価値が生み出されています。
ただし、データは統合されていないことも多いのが問題です。
そこで、分析したいこと(知りたいこと)と利用可能なデータを紐付けることが重要です。
社外のデータを加えるメリットは、比較できる、補完できるのがメリット。
ただし、社外データを収集する上では、工数や費用がかかること、収集後に前処理に時間がかかることがデメリットです。
社内だけでなく社外、数値データだけでなく画像や音声、テキストデータも視野に入れて検討していくのが大事。
データサイエンス技術って何?
データサイエンス技術にはざっくりと統計学と機械学習があります。


たとえば統計学によってこんなことが出来ます。
- 特徴を理解する
- 因果関係を推論する
- 定量的に効果検証する
また、機械学習ではこんなことが出来るようになります。
- 予測する
- グルーピングする
統計学にはざっくり3つの分野があります。
- 記述統計学
- 推測統計学
- 時系列分析
記述統計では、平均や分散の算出。
推測統計では、推定、仮説検定、回帰分析。
時系列分析では、時間に伴い変化するパターンの理解や予測。
機械学習にはざっくり2つの学習があります。
- 予測モデル(教師あり学習)
- クラスタリング(教師なし学習)
予測モデル(教師あり学習)では、過去データからパターンを抽出し再現する。
クラスタリング(教師なし学習)では、類似したデータをグルーピングします。
- 統計学:構造や因果関係を分析するとき
- 機械学習:予測やグルーピングするとき
統計学ってどう使うの?
統計学には2つのキーワードがあります。
母集団とサンプルです。
統計学とは、母集団からランダムにサンプルを調査し、平均や分散などの統計量から、母集団の傾向や性質を理解するための学問。
記述統計学とは、いかに手元のサンプルを集計するか、というもの。
キーワードは、平均、中央値、分散、標準偏差。
例えば、平均値を求めた場合、情報量は削減されます。
正しく「集計する」ためには、データが持つ特性(データの分布)自体をちゃんと理解した上で数字やグラフで表現することが重要。
平均だけではなく、データの分布を見るべし!
関連記事【Excel】エクセルで確率分布関数(二項、ポアソン、正規)の使い方を解説!
まずはヒストグラム
データ分析の最初の一歩はヒストグラム。
ヒストグラムの見方のコツ。
- どのような形か?
- 山がいくつあるか?
- 外れ値がないか?
- データの中心はどのあたりか?
平均や中央値といった値は分布の中心を表す指標です。
中央値とは、データを順番に並べたときの真ん中の数値のことを言います。
平均値や中央値の使いどころが決まっていて、ヒストグラムの山が1つのときに使います。
平均は外れ値に弱い(特にサンプル数が少ないときに)というデメリットがあります。
ヒストグラムの山が複数の場合、平均値や中央値は良い統計値ではなくなるんです。
したがって、複数の山があるとき、サンプル数が少なく外れ値があるときに平均を使う際には注意が必要。
回帰分析ってなに?
次にご紹介するのが、回帰分析。推測統計学の仲間です。
回帰分析とは、原因となる変数と結果となる変数の関係性を定量的に分析する手法。
回帰分析について覚えなくてはいけないポイントは、「残差の2乗の合計」を最小にするように直線(切片と傾き)を求めるという点です。
原因となる変数(説明変数)が複数の場合は重回帰分析と言います。
回帰分析では、原因となる変数を集める必要があります。
あくまで直線しか引けないので、複雑な関係を分析するのは得意ではないのに注意。
時系列分析ってなに?
時系列分析とは、時系列データ、つまり時間の推移に伴って変化するようなデータをモデル化し、将来を予測する手法。
株価や為替レート、売上などなど。
時間的なパターン、構造を表すモデルは主に2つあります。
- 自己回帰モデル
- 移動平均モデル
自己回帰モデルとは、過去の値から将来の値を順繰りに計算していこう、というモデル。
移動平均モデルとは、過去の予測と実績の差分が将来の値に影響を与える、というモデル。
時系列分析のメリットとして、単純に時間とともに変化するデータさえ集めることができれば将来の予測が成り立つこと。
機械学習ってどう使うの?
機械学習は予測モデルを作るのに用いられます。
予測モデルをつくる
例えば、エリア別のタクシー利用者数の予測。
このエリアに何人くらいのお客さんが見込めるか。
これが分かればタクシー会社は効率的なタクシーの配車が出来るようになります。
ここで用いるのが教師あり学習。
この場合、必要なデータとして、
- タクシー運行データ
- リアルタイム人口動態
- 気象データ
- 近隣のイベントデータ
などが必要になります。
これらを機械学習により分析し、需要の予測をすることで、効率的な運行を実現することが出来ます。
ただし、上記のどのようなデータがいいか試行錯誤しながらモデルを作っていくので、やってみなくては分からない側面があります。
また、この予測モデルについて、「誰が使うか?」「目的は?」「頻度」を考慮して検討する必要があります。
解釈可能性と予測性能にはトレードオフがあるということを予め念頭に置いておきます。
機械学習の用語で、インプットのことを特徴量(Feature, フィーチャー)といいます。統計学の言葉では説明変数とも言います。
また、正しいアウトプット(教師データ)を目的変数、ターゲット変数といいます。
正しいアウトプットと予測されたアウトプットとの差分(誤差)を目的関数、損失関数といいます。
この予測モデリングの構築プロセスは、「データ理解」「特徴量作成・選択」「モデル作成」「性能評価」に分かれますが、試行錯誤が必要。
ディープラーニングはインプットである特徴量とアウトプットである教師データとの複雑な関係性を捉えることができる可能性があります。
クラスタリングする
例えば、ユーザーの興味に合わせて広告をうちたい場合、必要な手法がクラスタリングです。
クラスタリングとは、類似しているデータをグルーピングし、人間が定めたグループ数になるようにデータをまとめること。
教師なし学習により、似たデータを同じグループにまとめ、ユーザーのセグメンテーション(グループ分け)することが出来ます。
データサイエンティストには何が必要?
データサイエンティストと一言で言っても様々あります。
- Data Developers
- Data Researcher
- Data Creatives
- Data Businesspeople
Data Developers
- DB、プログラミングや機械学習が得意
- 統計学やビジネスは苦手
- IT業界出身者が多い
Data Researcher
- 統計学が得意で科学的思考ができ優れた分析ができる
- ビジネスは苦手
- アカデミック出身者が多い
Data Creatives
- ビッグデータ技術に精通し、プログラミングもできる
- ビジネスへの理解は薄い
- オープンソースのコントリビューターに多い
Data Businesspeople
- ビジネス経験豊かで、技術的な知識もそこそこある
- 手を動かせるわけではない
- ビジネスサイド出身が多い



さあどのデータサイエンティストを目指しましょうか?
ビジネスでのデータ分析を行う上では、『翻訳家』が必要。
- 業界や自社業務に関する知識
- データサイエンスに関する知識
- プロジェクトマネジメントスキル
- 起業家精神
上記4つの能力が求められます。
データ分析に最も大事なものは?
データ分析で最も大事なものは、『データ』です。
ただし、データといっても、データの『量』とデータの『質』の目利きが必要になります。
一般的にデータが増えると分析の精度は向上するからです。
データ数が不十分である場合、アルゴリズムを工夫することで精度改善するのは至難の技です。
また、他社からのデータ購入も予算の都合や、結合できるかなども考えると簡単な解決策ではありません。
判断に迷う場合は人間が介入することでサービスを拡大させていき、サービス拡大に伴ってデータ数が増えていけば精度の改善が期待できます。
また、複雑な問題を解くにはデータの種類が必要だからです。
必要なデータの種類が不足しているときはデータの『質』に留意します。
データの質をチェックする視点が下記です。
- 必要なデータが網羅されているか?
- 使いやすい形になっているか?
- 最新の状態にメンテナンスされているか?
- データは正確か?
- 個体を特定可能か?
- データが理解しやすいか?
- 偏りがないか?
- 重複がないか?
大事なのは、スモールスタートの原則。
最初は簡単な課題から取り組み、データを集めながら徐々にスケールアップを目指すべし。
さあビジネスでデータ分析してみよう!
ビジネスシーンでのデータ分析・活用はますます進んでいます。
思考プロセスとして、カスタマージャーニー(顧客の購買までのフェーズ)やKPIツリー(指標の要素分解)を意識することが需要です。
また、データ分析手法としては、統計学と機械学習の2つがあります。
統計学と機械学習には主に下記の使い分けを意識します。
- 統計学:構造や因果関係を分析するとき
- 機械学習:予測やグルーピングするとき
データ分析は一日にして成らず。
様々な事象に対し、データ分析での最適な手法やアルゴリズムを提案できるようにする。
そんなビジネス側と技術側の橋渡し人材、目指してみませんか?
コメント