ファイルを誰かに送る場合や、エクセル等で作業した方が早い場合などはJupyterからいったんCSVで出力することがよくある。
出力にはto_csvメソッドを使うが、その引数のメモ。
EXCELユーザにデータを渡す場合
utf-8だと読み込み時に変換が必要になるため、開き方について問い合わせが来たりする。
お互いの時間を節約するため、引数でエンコーディングを指定して開きやすくしておく。
Windowsの日本語ユーザの場合、encoding=’cp932’を指定するとスムーズ。
# 読み込み
df = pd.read_csv('sample_data/mnist_test.csv', encoding='cp932')
# 書き出し
df.to_csv('sample_data/mnist_test.csv', encoding='cp932')
必要な列だけ出力する
必要な列だけでいい場合は、columns引数を使うことで実現できる。
渡せない・渡したくないデータが入った列を除去する際などで便利。
# 書き出し
df.to_csv('sample_data/mnist_test.csv', columns=['7']) # リストで指定する
インデックスを除去する
インデックスがただの連番、あるいは色々除去したことで連番が崩れていることもある。
そうした場合は誤解(末尾の数字だけ見てデータ数を判断したり)を与えないようにインデックスを除去しておく。
行番号でなく、インデックスの数を見る人がけっこう多い….。なんかデータ数多いんですけど?で発覚する。
# 書き出し
df.to_csv('sample_data/mnist_test.csv', index=False) # リストで指定する