社会人のためのデータサイエンス演習 2週目 2-1. Analysis(分析)とは

「分析」の定義

そもそも「分析」とは?改めて考えてみると、一言では答えられなかったので初心に帰る。

講座では「変数とKGIの関係を定量的に明らかにすること」とあったが、ウィキペディアで一番近そうな定義は

ある物事を分解して、それらを成立させている成分要素側面を明らかにすること。

https://ja.wikipedia.org/wiki/%E5%88%86%E6%9E%90

つまるところ、対象を構成する要素を明らかにし、その対象がどのような成り立ちをしているのかを明らかにする、というようなことなのだろう。

名義尺度と連続尺度

名義尺度はカテゴリーに分けるような尺度。性別や地域などの変数間の順序に意味がないものと、満足度やランキングなどの順序に意味があるものの2種類がある。

連続尺度は連続した数値によって順序に意味があるもの。金額や体重、年齢などが該当する。和差積商することに意味がある数値として捉えると分かりやすい(ランキングは足したり引いたりしてもあまり意味がない)。

分析の基本は可視化による概観の把握

まずは対象のざっくりとした把握が分析の序盤では必要。pandasだとdescribeなどで基本指標を把握したり、ヒストグラムや散布図によって状況を可視化する。

変数間の関係性を見るには、いくつかの方法がある。

比較する 名義尺度×名義尺度

クロス集計。男女と2店舗の来店数など。

比較する 名義尺度×連続尺度

ヒストグラム。2店舗の来店数と利用金額をヒストグラムにして比較など。

傾向把握 連続尺度×連続尺度

散布図や時系列プロット(片側が時間の場合)。

対象とするデータによって、どの手法を使用するべきかはしっかりと考える必要がある。このあたり、あまり分析業務を行っていない人が途方にくれているのを社内でよく見る。逆に手法を多く知っていると間違ったセレクトをしているかも…と肝に銘じておく。

変数が2つ以上ある場合

2次元的なプロットに限界がある場合、3次元的な可視化などが行われる。さらに変数が増えたりすると、機械学習の出番になる。機械学習まわりはしばらく後の講座になるとのこと。

参考文献

敷居が高そうな本だが、ざっくり体系的に学べる。

このサイトの主
投稿を作成しました 98

関連投稿

検索語を上に入力し、 Enter キーを押して検索します。キャンセルするには ESC を押してください。

トップに戻る