社会人のためのデータサイエンス演習 4週目

4-1. 回帰分析による予測

予測を行わないビジネス→効率が悪い

予測ができると、無駄が減ったり、てこ入れが必要そうだなどの予測を立てることができる。

あとは単回帰分析の説明で終わり。

4-2. モデル評価と予実評価

モデル作成の注意点

外れ値を除外する
欠損値を対処（安易に平均値を入れず、欠損値がなぜ存在するかを考えること）
過学習

4-3. 分析結果の報告(記述/可視化方法)

ミスリードさせることなく、正しく情報を伝える。報告の要件は下記の通り。

調査分析の前提条件の明示

目的や用語の定義、データの取得方法や出所、その他外在的要因（社会情勢など）

プロセスの明示

分析プロセスやロジック、作業手順

適切な表現

指標の設定、グラフの種類などの最適化、図表のタイトルや凡例、出典などの明示

初見の読者が知っていないと結果の解釈が変わってしまうような内容はしっかり明示する。

また、収集した情報がどのようなソースによるものかは注意。ネット調査ではITリテラシーの高いユーザが多いなどの前提条件が発生するので、特に注意する。

4-4. 分析結果の報告(解釈の注意点)

情報の偏り（不適切なサンプル）

サンプル数が実は少ない、収集方法に偏りがある

グラフのウソ（グラフの作為・定義の違い）

軸のスタートを省略したりして、基準点や単位などを惑わせる方法がある

ロジック展開のウソ（ヒューリスティックス）

結論づける際には論拠に注意する。結論づけることができない、弱いと考える場合は別のデータなどを収集したりして論拠を補強することが必要。

錯覚・思い込み（確証バイアス）

条件付き確率をもとに結論づける場合（致死率と罹患率で、致死率だけで判断する）などは分析者が勘違いしている場合もある。

「ヒューリスティック」とは経験則のこと。自分が持っている知見が一般的であると錯覚して判断を下してしまう。ヒューリスティックは思考プロセスを高速化させるメリットもあるが、正常な判断を阻害する側面もある。

代表性ヒューリスティック

4-5. 予測・分類等代表的手法と活用場面

機械学習と統計学の重きを置くところの違い

機械学習 → 予測精度の向上

統計学 → モデル構造の最適化

機械学習は大量のデータによって予測精度を向上させるため、ネット社会の進展によって進化が進んできた。

今週のテストは比較的簡単。Excelのウェブ版だと回帰分析ができなかったのでスプレッドシートに切り替えて計算。スプレッドシートはヒストグラムや回帰式などかなりスピーディに出力できるようになっていてびっくり。