2-2. 1変数の状況の把握(1)(可視化の活用) ヒストグラムによる可視化 前処理、処理後のチェックで必須のヒストグラムによるデータ把握。ここは特に真新しいところはなし。 1点だけ、ヒストグラムに複数の峰(ピーク)があ […]
社会人のためのデータサイエンス演習 2週目 2-1. Analysis(分析)とは
「分析」の定義 そもそも「分析」とは?改めて考えてみると、一言では答えられなかったので初心に帰る。 講座では「変数とKGIの関係を定量的に明らかにすること」とあったが、ウィキペディアで一番近そうな定義は ある物事を分解し […]
社会人のためのデータサイエンス演習 1週目 5
PPDACサイクル PDCAサイクルをベースにした(と言われている)、ニュージーランド発の問題解決手法。サイクルが循環する、循環型の問題解決プロセスに分類される。 Problem=問題の発見 現在抱えている問題が何なのか […]
社会人のためのデータサイエンス演習 1週目 3~4
3はだいたいこれまでの講座などで言われていること。4が面白かった。 Googleのネコ 人工知能の歴史は古く、1950年代からじわじわと研究が進んでいる領域。現在はSiriやワトソン、将棋AIなどの分かりやすい形で人間の […]
社会人のためのデータサイエンス演習 1週目 1~2
社会人のためのデータサイエンス「演習」ということで、データサイエンス入門の発展形となる。予約していた講座がスタートしたので受講開始~。 エビデンスベースド 初めて聞いた単語。文字通りエビデンスに準拠した、という意味。「エ […]
社会人のためのデータサイエンス入門 第4週(最終週) 後半
後半は統計局プレゼンツのウェブで閲覧可能なサービスの紹介。けっこう柔軟にデータ出力や可視化できてびっくり。 統計ダッシュボード よく使うであろうデータはすぐにグラフ化することができるサービス。専門知識がなくても使えるとあ […]
社会人のためのデータサイエンス入門 第4週(最終週) 前半
いよいよ最終週。テストで間違えた問題も改めて確認しておくのを忘れないこと(備忘録)。 政府統計の種類 一次統計 調査統計と呼ばれる、統計調査を行って得たデータと、業務統計と呼ばれる、政府の業務上得られたデータの2種類があ […]
社会人のためのデータサイエンス入門 第3週 後半
時系列データ特集。 暦年データと年度データ 暦年データ(Calendar Data)は1月スタートの12月エンド。世界基準なので比較が容易。 年度データは国などでユニークな区切り方のデータ。日本なら4月スタートの3月エン […]
社会人のためのデータサイエンス入門 第2週 テスト
先週のテストから急に難易度が上がる。考える問題多めだけど、考えるの楽しい。 ヒストグラムの階級調整 ふだんやらないので、階級の幅を広げた場合の実際の比率を出す問題につまづく。 偏差値まわりの理解不足 偏差値は流し見程度で […]
社会人のためのデータサイエンス入門 第2週 後半
1週目に比べて急に難易度が上がる。ディスカッションでもよく分からないという声がちらほらある。 標準誤差率 一般的な企業だと、必ずPOSを通るので100%のトランザクションデータが取れる(はず。実際は謎決済があったりする) […]
社会人のためのデータサイエンス入門 第2週 前半
2週目。若干遅れてるので、少し急ぐ。 代表値 まあまあ知っている範囲の話。大切なのは、データによって、あるいは目的によって代表値を使い分ける必要があるということ。 分散と標準偏差 Pandasのdescribeで基本統計 […]
社会人のためのデータサイエンス入門 第1週の後半・テスト
前回に引き続き、無料講座「社会人のためのデータサイエンス入門」。後半の4講座とテストを受けた。 つかみのよさそうな事例集 後半は前半より具体的な事例紹介。サッカーの勝率を回帰・重回帰で読み解こうする試み(ガチではなくやっ […]