社会人のためのデータサイエンス演習 2週目 2-2からテストまで

2-2. 1変数の状況の把握(1)（可視化の活用）

ヒストグラムによる可視化

前処理、処理後のチェックで必須のヒストグラムによるデータ把握。ここは特に真新しいところはなし。

1点だけ、ヒストグラムに複数の峰（ピーク）がある場合、異なる種類のデータが混ざっている可能性があるため、その峰に着目した分析が有効というのが面白かった。丁度実務で変な曲線を描いていたので、異種データの可能性を見ながら分析してみる。

あとは、ヒストグラムの説明の仕方。いつもざっくりでついて来てない人がいるな、と思いながら説明したりしていたので

縦軸と横軸の説明
データの幅
最頻値
データがおおむねどこに収まるか

の順番で説明すると分かりやすいので真似することにする。

2-3. 1変数の状況の把握(2)（代表値の活用）

基本指標の話。これも特に真新しいところはなし。最大値・最小値の言及はなく、尖度（せんど）や歪度の説明あり。

尖度は０で正規分布。値が正に大きくなっていくと尖がっていく。負になるほどペタっとする。歪度はプラスで左寄り、マイナスで右寄りになる。

2-4. 比較して2変数の関係を見る

扱うデータの種類によって比較方法を検討しなければならない、という話。

例えば名義尺度×名義尺度の場合、クロス集計表を用いる。グラフ化する場合はカテゴリごとの積み上げ棒グラフ（％）などで、それぞれのカテゴリごとの特徴を可視化・比較する。

連続尺度×名義尺度の場合、カテゴリごとの連続尺度におけるヒストグラムなどを作成し、カテゴリごとの差を可視化・比較すると分かりやすい。

2-5. ビジネスにおける比較(1)（概要）

A/Bテストの話。実務ではGoogle Optimizeを使っているので大体は把握。ポイントは下記。

変更点は調べたい1つだけ
テストの対象は無作為に選んで振り分けること

2-6. ビジネスにおける比較(2)（適切なA/Bテストの活用）

ランダムサンプリングの話。無作為に抽出するのは難しいが、人間の意志が介在しないような選び方を行うよう心掛けること。

テスト

A/Bテストは、「　A　」するための手法の一つである。施策を実施する対象の集団から二つの標本を取り出し、施策Aと施策Bをそれぞれの標本に適用する。それぞれの施策を実施した後、「　B　」を判断する。
問題2-1

最後の穴埋めだけうろ覚えで行ったらミス上限達しそうになった。A/Bテストは「KGIと施策の関係性を明らかにする」ために行い、「KGIを測り比較することで、有意な効果があるか」を判断するために行う。

あとヒストグラムの演習をGoogle スプレッドシートで行おうとしたら「列の統計情報」という便利機能に気付いた。データ > 列の統計情報で使用することができて、ヒストグラムと代表値がサイドバーで一撃表示。標準偏差など出ない代表値もあるけど、ヒストグラム出るので超便利。Excelにも実装してほしい。

社会人のためのデータサイエンス演習 2週目 2-2からテストまで

2-2. 1変数の状況の把握(1)（可視化の活用）

ヒストグラムによる可視化

2-3. 1変数の状況の把握(2)（代表値の活用）

2-4. 比較して2変数の関係を見る

2-5. ビジネスにおける比較(1)（概要）

2-6. ビジネスにおける比較(2)（適切なA/Bテストの活用）

テスト

参考文献

NYAGOLANTE

2-2. 1変数の状況の把握(1)（可視化の活用）

ヒストグラムによる可視化

2-3. 1変数の状況の把握(2)（代表値の活用）

2-4. 比較して2変数の関係を見る

2-5. ビジネスにおける比較(1)（概要）

2-6. ビジネスにおける比較(2)（適切なA/Bテストの活用）

テスト

参考文献

NYAGOLANTE

関連投稿