2-2. 1変数の状況の把握(1)(可視化の活用)
ヒストグラムによる可視化
前処理、処理後のチェックで必須のヒストグラムによるデータ把握。ここは特に真新しいところはなし。
1点だけ、ヒストグラムに複数の峰(ピーク)がある場合、異なる種類のデータが混ざっている可能性があるため、その峰に着目した分析が有効というのが面白かった。丁度実務で変な曲線を描いていたので、異種データの可能性を見ながら分析してみる。
あとは、ヒストグラムの説明の仕方。いつもざっくりでついて来てない人がいるな、と思いながら説明したりしていたので
- 縦軸と横軸の説明
- データの幅
- 最頻値
- データがおおむねどこに収まるか
の順番で説明すると分かりやすいので真似することにする。
2-3. 1変数の状況の把握(2)(代表値の活用)
基本指標の話。これも特に真新しいところはなし。最大値・最小値の言及はなく、尖度(せんど)や歪度の説明あり。
尖度は0で正規分布。値が正に大きくなっていくと尖がっていく。負になるほどペタっとする。歪度はプラスで左寄り、マイナスで右寄りになる。
2-4. 比較して2変数の関係を見る
扱うデータの種類によって比較方法を検討しなければならない、という話。
例えば名義尺度×名義尺度の場合、クロス集計表を用いる。グラフ化する場合はカテゴリごとの積み上げ棒グラフ(%)などで、それぞれのカテゴリごとの特徴を可視化・比較する。
連続尺度×名義尺度の場合、カテゴリごとの連続尺度におけるヒストグラムなどを作成し、カテゴリごとの差を可視化・比較すると分かりやすい。
2-5. ビジネスにおける比較(1)(概要)
A/Bテストの話。実務ではGoogle Optimizeを使っているので大体は把握。ポイントは下記。
- 変更点は調べたい1つだけ
- テストの対象は無作為に選んで振り分けること
2-6. ビジネスにおける比較(2)(適切なA/Bテストの活用)
ランダムサンプリングの話。無作為に抽出するのは難しいが、人間の意志が介在しないような選び方を行うよう心掛けること。
テスト
A/Bテストは、「 A 」するための手法の一つである。施策を実施する対象の集団から二つの標本を取り出し、施策Aと施策Bをそれぞれの標本に適用する。それぞれの施策を実施した後、「 B 」を判断する。
問題2-1
最後の穴埋めだけうろ覚えで行ったらミス上限達しそうになった。A/Bテストは「KGIと施策の関係性を明らかにする」ために行い、「KGIを測り比較することで、有意な効果があるか」を判断するために行う。
あとヒストグラムの演習をGoogle スプレッドシートで行おうとしたら「列の統計情報」という便利機能に気付いた。データ > 列の統計情報で使用することができて、ヒストグラムと代表値がサイドバーで一撃表示。標準偏差など出ない代表値もあるけど、ヒストグラム出るので超便利。Excelにも実装してほしい。