要素の置換にはreplaceがまず浮かぶが、mapの方が高速で置換することができる(らしい)。 辞書を使った置換操作 mapの場合、辞書を使った置換ができる。これはapplyではできない。 データフレームではなく、シリー […]
数値の列と文字列の列を結合
pandasで数値の列と文字列を結合する場合、数値をobjectに変換してから結合する必要がある。 例えば 型を確認する 数値列がintになっている。これをそのまま結合すると、怒られる。 よって、一度数値型の列を文字列型 […]
Pandas applyのおさらい
ラムダ式の用法をマスターする上で、applyの知識をおさらいしておく。 apply apply関数は、データフレームもシリーズも適用することができる関数。 似た関数にはmapやapplymapがある。mapはシリーズに使 […]
lambda関数をマスターする
なんか便利そうだけど、よく分からないので触れずにいたラムダ関数をマスターすべく、勉強することにする。λを見ると、Half-Lifeしか思い浮かばない。 とっても分かりやすいnoteがあったので、それに従って進めていく。 […]
社会人のためのデータサイエンス入門 第4週(最終週) 後半
後半は統計局プレゼンツのウェブで閲覧可能なサービスの紹介。けっこう柔軟にデータ出力や可視化できてびっくり。 統計ダッシュボード よく使うであろうデータはすぐにグラフ化することができるサービス。専門知識がなくても使えるとあ […]
社会人のためのデータサイエンス入門 第4週(最終週) 前半
いよいよ最終週。テストで間違えた問題も改めて確認しておくのを忘れないこと(備忘録)。 政府統計の種類 一次統計 調査統計と呼ばれる、統計調査を行って得たデータと、業務統計と呼ばれる、政府の業務上得られたデータの2種類があ […]
社会人のためのデータサイエンス入門 第3週 後半
時系列データ特集。 暦年データと年度データ 暦年データ(Calendar Data)は1月スタートの12月エンド。世界基準なので比較が容易。 年度データは国などでユニークな区切り方のデータ。日本なら4月スタートの3月エン […]
社会人のためのデータサイエンス入門 第3週 前半
今週はより実践的な内容にシフト。前半は比率データの便利さと注意点について。 クロスセクションデータ よくあるテーブルになっているデータ。縦軸にエリア名、横軸に人口、面積などが記入されているタイプ。 構成比と相対比の違い […]
社会人のためのデータサイエンス入門 第2週 テスト
先週のテストから急に難易度が上がる。考える問題多めだけど、考えるの楽しい。 ヒストグラムの階級調整 ふだんやらないので、階級の幅を広げた場合の実際の比率を出す問題につまづく。 偏差値まわりの理解不足 偏差値は流し見程度で […]
社会人のためのデータサイエンス入門 第2週 後半
1週目に比べて急に難易度が上がる。ディスカッションでもよく分からないという声がちらほらある。 標準誤差率 一般的な企業だと、必ずPOSを通るので100%のトランザクションデータが取れる(はず。実際は謎決済があったりする) […]
社会人のためのデータサイエンス入門 第2週 前半
2週目。若干遅れてるので、少し急ぐ。 代表値 まあまあ知っている範囲の話。大切なのは、データによって、あるいは目的によって代表値を使い分ける必要があるということ。 分散と標準偏差 Pandasのdescribeで基本統計 […]