後半は統計局プレゼンツのウェブで閲覧可能なサービスの紹介。けっこう柔軟にデータ出力や可視化できてびっくり。 統計ダッシュボード よく使うであろうデータはすぐにグラフ化することができるサービス。専門知識がなくても使えるとあ […]
社会人のためのデータサイエンス入門 第4週(最終週) 前半
いよいよ最終週。テストで間違えた問題も改めて確認しておくのを忘れないこと(備忘録)。 政府統計の種類 一次統計 調査統計と呼ばれる、統計調査を行って得たデータと、業務統計と呼ばれる、政府の業務上得られたデータの2種類があ […]
社会人のためのデータサイエンス入門 第3週 後半
時系列データ特集。 暦年データと年度データ 暦年データ(Calendar Data)は1月スタートの12月エンド。世界基準なので比較が容易。 年度データは国などでユニークな区切り方のデータ。日本なら4月スタートの3月エン […]
社会人のためのデータサイエンス入門 第3週 前半
今週はより実践的な内容にシフト。前半は比率データの便利さと注意点について。 クロスセクションデータ よくあるテーブルになっているデータ。縦軸にエリア名、横軸に人口、面積などが記入されているタイプ。 構成比と相対比の違い […]
社会人のためのデータサイエンス入門 第2週 テスト
先週のテストから急に難易度が上がる。考える問題多めだけど、考えるの楽しい。 ヒストグラムの階級調整 ふだんやらないので、階級の幅を広げた場合の実際の比率を出す問題につまづく。 偏差値まわりの理解不足 偏差値は流し見程度で […]
社会人のためのデータサイエンス入門 第2週 後半
1週目に比べて急に難易度が上がる。ディスカッションでもよく分からないという声がちらほらある。 標準誤差率 一般的な企業だと、必ずPOSを通るので100%のトランザクションデータが取れる(はず。実際は謎決済があったりする) […]
社会人のためのデータサイエンス入門 第2週 前半
2週目。若干遅れてるので、少し急ぐ。 代表値 まあまあ知っている範囲の話。大切なのは、データによって、あるいは目的によって代表値を使い分ける必要があるということ。 分散と標準偏差 Pandasのdescribeで基本統計 […]
社会人のためのデータサイエンス入門 第1週の後半・テスト
前回に引き続き、無料講座「社会人のためのデータサイエンス入門」。後半の4講座とテストを受けた。 つかみのよさそうな事例集 後半は前半より具体的な事例紹介。サッカーの勝率を回帰・重回帰で読み解こうする試み(ガチではなくやっ […]
社会人のためのデータサイエンス入門 第1週の前半
受けよう受けようと思っていた、無料講座「社会人のためのデータサイエンス入門」をやっと始められた。 社会人向けの統計学基礎の内容。だいたい基本書籍で学んだ内容だけど、体系立てて学んだことはないので楽しみ。 個人的な目標 デ […]
Access学習はじめ。基本機能と頻出用語の定義
新しい分野の学習を始める場合、その分野の扱う領域の概念と用語の定義を確認することで理解が早まる(気がする)。ACCESSについてもこの方式で学習をすすめることとす。 ACCESSの扱える範囲 リレーショナルデータベースの […]
Office Access事始め 導入背景
Accessを使用した商品データベースの構築を担当することになった。まずは経緯について整理する。 導入背景 エクセルで管理しているデータベースが(色んな意味で)限界 データが各部署で乱立し、最新データがどれなのか分からな […]
to_csvのカスタマイズで他部署向けデータにする
ファイルを誰かに送る場合や、エクセル等で作業した方が早い場合などはJupyterからいったんCSVで出力することがよくある。出力にはto_csvメソッドを使うが、その引数のメモ。 EXCELユーザにデータを渡す場合 ut […]