Jupyterで使うテスト用データ

実務で分析を行う際に、ちょっとややこしそうな実装があるケースがある(だいぶこなれてきたが、新規案件はコードに悩むことがまだある)。

そういう時は直接対象データを触る前に、コンパクトなダミーデータで実験してから本実装につなげていくパターンが多い。

シンプルなダミーデータを用意して考えると、通勤中などに「ああしたらどうか」とか「こうしてもいいのかな」などと考えることが楽にできるので、けっこう気に入っている。

そうした時にジュピターで使うための、テスト用データのメモ。

scikit-learn

データセットの内容がサンプル含めてまとめられている。教本でおなじみのアヤメ、ボストンの住宅価格データ。

ECの売上分析等のテストデータとしてはいささか使いにくいことが多い。アヤメにも思い入れはない。

EC売上サンプルデータ

Kaggleで公開されているサンプルデータ。イギリスのオンラインストアのトランザクションデータで、基本的にEC取引の体裁は整っているので使いやすそう。

用途に合わせて生成

EC以外のデータ分析を依頼されることもあるので、サンプル的なデータ作成について整理しておく。

import pandas as pd
df = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Noto', 'Hisakawa', 'Kouda']})
df
	ID	Name
0	1	Noto
1	2	Hisakawa
2	3	Kouda

辞書で定義すると楽。できたデータはGithubにつっこんでおくと、read_csvで呼び出せて便利。

このサイトの主
投稿を作成しました 115

関連投稿

検索語を上に入力し、 Enter キーを押して検索します。キャンセルするには ESC を押してください。

トップに戻る