社会人のためのデータサイエンス演習 2週目 2-2からテストまで

2-2. 1変数の状況の把握(1)(可視化の活用)

ヒストグラムによる可視化

前処理、処理後のチェックで必須のヒストグラムによるデータ把握。ここは特に真新しいところはなし。

1点だけ、ヒストグラムに複数の峰(ピーク)がある場合、異なる種類のデータが混ざっている可能性があるため、その峰に着目した分析が有効というのが面白かった。丁度実務で変な曲線を描いていたので、異種データの可能性を見ながら分析してみる。

あとは、ヒストグラムの説明の仕方。いつもざっくりでついて来てない人がいるな、と思いながら説明したりしていたので

  1. 縦軸と横軸の説明
  2. データの幅
  3. 最頻値
  4. データがおおむねどこに収まるか

の順番で説明すると分かりやすいので真似することにする。

2-3. 1変数の状況の把握(2)(代表値の活用)

基本指標の話。これも特に真新しいところはなし。最大値・最小値の言及はなく、尖度(せんど)や歪度の説明あり。

尖度は0で正規分布。値が正に大きくなっていくと尖がっていく。負になるほどペタっとする。歪度はプラスで左寄り、マイナスで右寄りになる。

2-4. 比較して2変数の関係を見る

扱うデータの種類によって比較方法を検討しなければならない、という話。

例えば名義尺度×名義尺度の場合、クロス集計表を用いる。グラフ化する場合はカテゴリごとの積み上げ棒グラフ(%)などで、それぞれのカテゴリごとの特徴を可視化・比較する。

連続尺度×名義尺度の場合、カテゴリごとの連続尺度におけるヒストグラムなどを作成し、カテゴリごとの差を可視化・比較すると分かりやすい。

2-5. ビジネスにおける比較(1)(概要)

A/Bテストの話。実務ではGoogle Optimizeを使っているので大体は把握。ポイントは下記。

  • 変更点は調べたい1つだけ
  • テストの対象は無作為に選んで振り分けること

2-6. ビジネスにおける比較(2)(適切なA/Bテストの活用)

ランダムサンプリングの話。無作為に抽出するのは難しいが、人間の意志が介在しないような選び方を行うよう心掛けること。

テスト

A/Bテストは、「 A 」するための手法の一つである。施策を実施する対象の集団から二つの標本を取り出し、施策Aと施策Bをそれぞれの標本に適用する。それぞれの施策を実施した後、「 B 」を判断する。

問題2-1

最後の穴埋めだけうろ覚えで行ったらミス上限達しそうになった。A/Bテストは「KGIと施策の関係性を明らかにする」ために行い、「KGIを測り比較することで、有意な効果があるか」を判断するために行う。

あとヒストグラムの演習をGoogle スプレッドシートで行おうとしたら「列の統計情報」という便利機能に気付いた。データ > 列の統計情報で使用することができて、ヒストグラムと代表値がサイドバーで一撃表示。標準偏差など出ない代表値もあるけど、ヒストグラム出るので超便利。Excelにも実装してほしい。

参考文献

このサイトの主
投稿を作成しました 115

関連投稿

検索語を上に入力し、 Enter キーを押して検索します。キャンセルするには ESC を押してください。

トップに戻る