python 将大文件读取为 DataFrame
时,直接对整个文件进行读取会比较耗时,甚至内存还会不足。
https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#reading-multiple-files-to-create-a-single-dataframe
这里使用指定 chunksize
指定分块大小,也就是分批读取。
import pandas as pd
# pandas 读取csv大文件,指定分块大小
csv_data = pd.read_csv('2021-11.csv', chunksize=1)
for item in csv_data:
# DataFrame 转换为 List
data = item.values.tolist()
print(data)
break
# [[657397242, 4287.48, 0.238, 1020.42024, 1635724800369, False, True]]
遍历 csv_data
时,每个 item
将会是你分块元素的大小,如果需要将 Dataframe
转换成列表,可以直接使用 Dataframe.values.tolist()
转换成列表