【Pandas、簡単サンプル】巨大なデータを部分的に読み込むためのchunksizeについてのメモ

pandasで巨大なデータを読み込む時にはread_csvにchunksize設定し、
データ部分的に読み込みます。

今回は、そのchunksizeの使い方をメモしておきます。

2行ずつ読み込むサンプルコード

さっそくサンプルコードを見てます。

まず以下のようなcsvデータ(test.csv)があるとします。(とりあえず動作だけを見るので小さいデータ)

a,b
0, 2
1, 2
2, 2
3, 2
4, 2
5, 2
6, 2
7, 2
8, 2

では、このデータを2行ずつ読み込んでみます。
read_csvにchunksize=2を設定し読み込みます。

>> import pandas as pd
>> data = pd.read_csv("./test.csv", chunksize=2)
>>> for chunk in data:
        print("----------------")
...     print(chunk)

## 以下出力

----------------
   a  b
0  0  2
1  1  2
----------------
   a  b
2  2  2
3  3  2
----------------
   a  b
4  4  2
5  5  2
----------------
   a  b
6  6  2
7  7  2
----------------
   a  b
8  8  2
```

2行ずつ読み込めていることがわかりますね。

pandasで巨大なデータを読み込む時にはread_csvにchunksize設定し、
データ部分的に読み込みます。

今回は、そのchunksizeの使い方をメモしておきます。

タイトルとURLをコピーしました