to_csvのカスタマイズで他部署向けデータにする

ファイルを誰かに送る場合や、エクセル等で作業した方が早い場合などはJupyterからいったんCSVで出力することがよくある。
出力にはto_csvメソッドを使うが、その引数のメモ。

EXCELユーザにデータを渡す場合

utf-8だと読み込み時に変換が必要になるため、開き方について問い合わせが来たりする。
お互いの時間を節約するため、引数でエンコーディングを指定して開きやすくしておく。

Windowsの日本語ユーザの場合、encoding=’cp932’を指定するとスムーズ。

# 読み込み
df = pd.read_csv('sample_data/mnist_test.csv', encoding='cp932')
# 書き出し
df.to_csv('sample_data/mnist_test.csv', encoding='cp932')

必要な列だけでいい場合は、columns引数を使うことで実現できる。
渡せない・渡したくないデータが入った列を除去する際などで便利。

# 書き出し
df.to_csv('sample_data/mnist_test.csv', columns=['7']) # リストで指定する

インデックスがただの連番、あるいは色々除去したことで連番が崩れていることもある。
そうした場合は誤解（末尾の数字だけ見てデータ数を判断したり）を与えないようにインデックスを除去しておく。

行番号でなく、インデックスの数を見る人がけっこう多い….。なんかデータ数多いんですけど？で発覚する。

# 書き出し
df.to_csv('sample_data/mnist_test.csv', index=False) # リストで指定する