scikit-learnでk-meansを調べていると、いくつか便利な関数が用意されているのに気付いたのでシンプルに実行できる形をまとめておく。 まずは読み込み fit()メソッド:与えられた数値の平均や偏差などを記録す […]
k-meansでクラスタリング
クラスタリングとは分類そのものを作成する手法 クラスタリングは複数の項目から対象のクラスターを分類する手法。小売りの現場での主な用途としては 顧客の購買履歴を使用した分類 店舗の立地条件などを使用した分類 商品の売れ行き […]
大学生のためのデータサイエンス(Ⅰ)1週目 ガイダンス
新しく滋賀大学の講座を受けてみることにする。1週目は概要だったので、気になった部分だけピックアップ。 データサイエンティストの役割 データサイエンティストはビッグデータなどのデータを取り扱い、分析し、そこから価値を引き出 […]
PEP8を読む
ちょっと時間ができたので、PEP8(古より伝わるPythonコーディングルール)を読んでみる。自分に不足していた部分だけピックアップ。 日本語参考サイト 日本語に翻訳・解説してくれるサイトがたくさんあって助かった。 [P […]
Series同士の連結 append編
複数のシリーズ同士を連結する際は、appendもしくはconcatを使う。 連結には2種類あって、行を連結するパターンと列を連結するパターンがある。ただ複数に別れたユーザIDの連結など、下に下につないでいくパターンが私の […]
CSVで要素内にカンマが入っている場合の前処理
ECのトランザクションを読み込む際に、氏名にカンマを使用しているケースがあった。 そのままread_csvしてしまうと、読み込みエラーとなってしまうために前処理が必要。ただいつものように処理しようにもread_csvがエ […]
Pandas 文字列をmapで置換
要素の置換にはreplaceがまず浮かぶが、mapの方が高速で置換することができる(らしい)。 辞書を使った置換操作 mapの場合、辞書を使った置換ができる。これはapplyではできない。 データフレームではなく、シリー […]
数値の列と文字列の列を結合
pandasで数値の列と文字列を結合する場合、数値をobjectに変換してから結合する必要がある。 例えば 型を確認する 数値列がintになっている。これをそのまま結合すると、怒られる。 よって、一度数値型の列を文字列型 […]
Pandas applyのおさらい
ラムダ式の用法をマスターする上で、applyの知識をおさらいしておく。 apply apply関数は、データフレームもシリーズも適用することができる関数。 似た関数にはmapやapplymapがある。mapはシリーズに使 […]
lambda関数をマスターする
なんか便利そうだけど、よく分からないので触れずにいたラムダ関数をマスターすべく、勉強することにする。λを見ると、Half-Lifeしか思い浮かばない。 とっても分かりやすいnoteがあったので、それに従って進めていく。 […]
社会人のためのデータサイエンス入門 第4週(最終週) 後半
後半は統計局プレゼンツのウェブで閲覧可能なサービスの紹介。けっこう柔軟にデータ出力や可視化できてびっくり。 統計ダッシュボード よく使うであろうデータはすぐにグラフ化することができるサービス。専門知識がなくても使えるとあ […]
社会人のためのデータサイエンス入門 第4週(最終週) 前半
いよいよ最終週。テストで間違えた問題も改めて確認しておくのを忘れないこと(備忘録)。 政府統計の種類 一次統計 調査統計と呼ばれる、統計調査を行って得たデータと、業務統計と呼ばれる、政府の業務上得られたデータの2種類があ […]