使用 Cython 和 Pandas 读取 TXT 文件

Read TXT file with Cython and Pandas

我有一个接近 4GB 的海量数据集(文本文件),我想使用 pandas 数据框处理该数据集。我可以读入文件,但需要几分钟才能读入所有数据。

所以,我想利用 Cython 库来提高 C 的速度。

我无法找到如何使用 Cython 将文本文件读入 pandas 数据帧。

任何指导都会有所帮助。

读取一次并将其存储为速度更快的其他文件格式 I/O(例如 HDF、pickle)。您很可能会看到 10 到 20 倍的改进。

官方文档中对每种文件格式I/O速度和磁盘space进行了粗略比较:https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#performance-considerations