2週目。若干遅れてるので、少し急ぐ。
代表値
まあまあ知っている範囲の話。大切なのは、データによって、あるいは目的によって代表値を使い分ける必要があるということ。
分散と標準偏差
Pandasのdescribeで基本統計は見るようにしてるので、折々ばらつきの話はしているが、いまいちピンと届いていないような気がするので復習する。
散らばりがなぜ重要か?
代表値だけで見ると、全体の傾向を見逃してしまうことが多い。例えば世帯年収を見る際に、代表値だけを見てあまり変化がないといった判断になったとする。
しかし実際はばらつきが広がっており、富の分布が顕著になっている=低所得者層が増えて生活が苦しい割合は増加しているといった側面を見逃してしまうということもありうる。
よってデータの散らばりを把握することで、代表値だけでは把握できないデータの特徴を見抜くことができる。
相関係数の注意
相関係数は直線的な値を表す指標
外れ値が入ることで、相関が薄いのに高い値が出たり、逆のケースも発生する。また曲線での相関が認められる場合でも、相関係数の数値が伸びない、といったこともある。
データを見るときは必ず散布図で確認すること!
因果関係を表す指標ではない
相関を数値で表したとしても、「因果」関係を表しているわけではない。