scikit-learnでk-meansを調べていると、いくつか便利な関数が用意されているのに気付いたのでシンプルに実行できる形をまとめておく。 まずは読み込み fit()メソッド:与えられた数値の平均や偏差などを記録す […]
k-meansでクラスタリング
クラスタリングとは分類そのものを作成する手法 クラスタリングは複数の項目から対象のクラスターを分類する手法。小売りの現場での主な用途としては 顧客の購買履歴を使用した分類 店舗の立地条件などを使用した分類 商品の売れ行き […]
大学生のためのデータサイエンス(Ⅰ)1週目 ガイダンス
新しく滋賀大学の講座を受けてみることにする。1週目は概要だったので、気になった部分だけピックアップ。 データサイエンティストの役割 データサイエンティストはビッグデータなどのデータを取り扱い、分析し、そこから価値を引き出 […]
PEP8を読む
ちょっと時間ができたので、PEP8(古より伝わるPythonコーディングルール)を読んでみる。自分に不足していた部分だけピックアップ。 日本語参考サイト 日本語に翻訳・解説してくれるサイトがたくさんあって助かった。 [P […]
Series同士の連結 append編
複数のシリーズ同士を連結する際は、appendもしくはconcatを使う。 連結には2種類あって、行を連結するパターンと列を連結するパターンがある。ただ複数に別れたユーザIDの連結など、下に下につないでいくパターンが私の […]
CSVで要素内にカンマが入っている場合の前処理
ECのトランザクションを読み込む際に、氏名にカンマを使用しているケースがあった。 そのままread_csvしてしまうと、読み込みエラーとなってしまうために前処理が必要。ただいつものように処理しようにもread_csvがエ […]