実務で分析を行う際に、ちょっとややこしそうな実装があるケースがある(だいぶこなれてきたが、新規案件はコードに悩むことがまだある)。
そういう時は直接対象データを触る前に、コンパクトなダミーデータで実験してから本実装につなげていくパターンが多い。
シンプルなダミーデータを用意して考えると、通勤中などに「ああしたらどうか」とか「こうしてもいいのかな」などと考えることが楽にできるので、けっこう気に入っている。
そうした時にジュピターで使うための、テスト用データのメモ。
scikit-learn
データセットの内容がサンプル含めてまとめられている。教本でおなじみのアヤメ、ボストンの住宅価格データ。
ECの売上分析等のテストデータとしてはいささか使いにくいことが多い。アヤメにも思い入れはない。
EC売上サンプルデータ
Kaggleで公開されているサンプルデータ。イギリスのオンラインストアのトランザクションデータで、基本的にEC取引の体裁は整っているので使いやすそう。
用途に合わせて生成
EC以外のデータ分析を依頼されることもあるので、サンプル的なデータ作成について整理しておく。
import pandas as pd
df = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Noto', 'Hisakawa', 'Kouda']})
df
ID Name
0 1 Noto
1 2 Hisakawa
2 3 Kouda
辞書で定義すると楽。できたデータはGithubにつっこんでおくと、read_csvで呼び出せて便利。