新しい分野の学習を始める場合、その分野の扱う領域の概念と用語の定義を確認することで理解が早まる(気がする)。ACCESSについてもこの方式で学習をすすめることとす。 ACCESSの扱える範囲 リレーショナルデータベースの […]
Office Access事始め 導入背景
Accessを使用した商品データベースの構築を担当することになった。まずは経緯について整理する。 導入背景 エクセルで管理しているデータベースが(色んな意味で)限界 データが各部署で乱立し、最新データがどれなのか分からな […]
to_csvのカスタマイズで他部署向けデータにする
ファイルを誰かに送る場合や、エクセル等で作業した方が早い場合などはJupyterからいったんCSVで出力することがよくある。出力にはto_csvメソッドを使うが、その引数のメモ。 EXCELユーザにデータを渡す場合 ut […]
read_csvのよく使う引数。型指定やエンコード。
Jupyterの冒頭で必ず登場する、read_csvに使用に関して。 型指定 よくあるのが、ユーザIDや商品IDがintなどになっている場合。mergeしようとした時に、数値とのmergeはダメよと言われるパターン。 同 […]
Pandasでreplaceメソッドを使ったテキスト置換
前処理を進めていく上で、生データの中にある誤りを訂正したりする際に使う置換に関して。 該当する要素まるごと置換していい場合 “typeA” を “typeB” に置き換える […]
PandasでユニークなIDをカウントする方法
地味に利用頻度が高い、ユニークな値のカウント方法について。 前処理を始める前の外観を確認する場合や、取り急ぎ要素の数をまとめた数字が欲しいと言われた場合に便利。 nuniqueメソッドを使うと1手早い。が、なぜかlenを […]
Pandasで、ある列の値が条件に合致したら、特定の列の値を書き換える方法
whereメソッドを第1引数に条件を指定して、Falseが返ってきたら第2引数に指定した値や配列で要素を書き換えることができる。 maskメソッドは第1引数の条件が逆で、Trueが返ってきた場合に書き換えを行う。 ifの […]
データ分析時に出てくる指数表示にケリをつける
指数と接点のない生活をしていたので、Jupiterで分析中に指数が出てくると「数値分からん、フォーマット変換忘れてたわ…」となる。 フォーマット変換すればいいけど、指数表示でも理解できるように重い腰を上げるこ […]
Pandasで同一のIDだった時に連番を追加する
売上のトランザクションデータの抽出を依頼したときに、売上IDのナンバー(伝票番号の枝番みたいな)の抽出依頼を忘れていた。 再度抽出依頼をするのもあれなので、自分で番号を降ることにする。 GroupBy.cumcount( […]
Jupyterlabのコード補完の模索
Jupyterlabのコード補完がなかなかうまくいかないので、一旦整理する。 htmlやcssのコーディングでvscodeを使っていると、コード補完がバリバリに働いてくれる。そこからjupyterlabに移動すると、うま […]
よくsort_valuesをsort_valueと間違えるのでメモ
pandasでよくsort_valuesをsort_valueと書いてエラーをいただくのでメモする。 Jupyterの予測変換 そもそもjupyter labのコードヒントがなかなかうまく動かないのをなんとかしたい。頻出 […]
社内商品DBを導入するにあたっての比較
社内に商品DBを導入したいという依頼があり、導入するにあたってざっくり調べてみる。 ちなみにかつて(10年くらい前)Filemakerで受発注の管理を目的とした商品DBは作成したことがあるが、それ以来本格的に関わったこと […]