4-1. 回帰分析による予測 予測を行わないビジネス→効率が悪い 予測ができると、無駄が減ったり、てこ入れが必要そうだなどの予測を立てることができる。 あとは単回帰分析の説明で終わり。 4-2. モデル評価と予実評価 モ […]
社会人のためのデータサイエンス演習 3週目 2
3-3. 相関関係と因果関係の違い 定義 相関関係 = ある変数が変化すると、他方の変数も同時に変化する関係 因果関係 = ある変数が、他方の変化を引き起こす関係(原因と結果) 見せかけの相関 ①因果の間に共通因子が隠れ […]
Pandas 複数の条件に合致した行を削除する
複数のカラムにまたがった条件を満たした行をデータフレームから除去する方法。パッと思いつかなかったのでメモしておく。 シンプルな方法 ひと手間かかるが、複数条件に合致する行のインデックスを定義してdrop関数に渡す。 まず […]
社会人のためのデータサイエンス演習 3週目 1
3-1. クロス集計の軸設定と見方 クロス集計は「2変数のカテゴリの組み合わせについてデータ個数や比率を集計」することで、「縦横のカテゴリの関連を調査することができる」。 変数間の関連性を見出すことで、課題のあぶり出しに […]
社会人のためのデータサイエンス演習 2週目 2-2からテストまで
2-2. 1変数の状況の把握(1)(可視化の活用) ヒストグラムによる可視化 前処理、処理後のチェックで必須のヒストグラムによるデータ把握。ここは特に真新しいところはなし。 1点だけ、ヒストグラムに複数の峰(ピーク)があ […]
社会人のためのデータサイエンス演習 2週目 2-1. Analysis(分析)とは
「分析」の定義 そもそも「分析」とは?改めて考えてみると、一言では答えられなかったので初心に帰る。 講座では「変数とKGIの関係を定量的に明らかにすること」とあったが、ウィキペディアで一番近そうな定義は ある物事を分解し […]
社会人のためのデータサイエンス演習 1週目 5
PPDACサイクル PDCAサイクルをベースにした(と言われている)、ニュージーランド発の問題解決手法。サイクルが循環する、循環型の問題解決プロセスに分類される。 Problem=問題の発見 現在抱えている問題が何なのか […]
社会人のためのデータサイエンス演習 1週目 3~4
3はだいたいこれまでの講座などで言われていること。4が面白かった。 Googleのネコ 人工知能の歴史は古く、1950年代からじわじわと研究が進んでいる領域。現在はSiriやワトソン、将棋AIなどの分かりやすい形で人間の […]
社会人のためのデータサイエンス演習 1週目 1~2
社会人のためのデータサイエンス「演習」ということで、データサイエンス入門の発展形となる。予約していた講座がスタートしたので受講開始~。 エビデンスベースド 初めて聞いた単語。文字通りエビデンスに準拠した、という意味。「エ […]