Accessを使用した商品データベースの構築を担当することになった。まずは経緯について整理する。 導入背景 エクセルで管理しているデータベースが(色んな意味で)限界 データが各部署で乱立し、最新データがどれなのか分からな […]
to_csvのカスタマイズで他部署向けデータにする
ファイルを誰かに送る場合や、エクセル等で作業した方が早い場合などはJupyterからいったんCSVで出力することがよくある。出力にはto_csvメソッドを使うが、その引数のメモ。 EXCELユーザにデータを渡す場合 ut […]
read_csvのよく使う引数。型指定やエンコード。
Jupyterの冒頭で必ず登場する、read_csvに使用に関して。 型指定 よくあるのが、ユーザIDや商品IDがintなどになっている場合。mergeしようとした時に、数値とのmergeはダメよと言われるパターン。 同 […]
Pandasでreplaceメソッドを使ったテキスト置換
前処理を進めていく上で、生データの中にある誤りを訂正したりする際に使う置換に関して。 該当する要素まるごと置換していい場合 “typeA” を “typeB” に置き換える […]
PandasでユニークなIDをカウントする方法
地味に利用頻度が高い、ユニークな値のカウント方法について。 前処理を始める前の外観を確認する場合や、取り急ぎ要素の数をまとめた数字が欲しいと言われた場合に便利。 nuniqueメソッドを使うと1手早い。が、なぜかlenを […]