Python 3.6:比较两个大的 gzip 压缩 csv 文件并获取差异记录

Python 3.6: Compare two large gzipped csv files & fetch difference records

我有 2 个 gzip 压缩的 csv 文件 IMFBOP2017_1.csv.gzIMFBOP2017_2.csv.gz,两个文件中的列相同,即 "Location, Indicator, Measure, Unit, Frequency, Date"

总行数 6000 万+

我想比较 IMFBOP2017_1 中不存在于 IMFBOP2017_2 中的文件和显示行。

我的计划是将两个文件导入数据框,向两个数据框添加一个额外的列 "compare" 并通过所有字段合并更新它

Location|Indicator|Measure|Unit|Frequence|Date and do NOT IN operation.

我认为这是一个昂贵的过程,有什么简单的解决方案吗?

Pandas可以用普通的pandas.read_csv()读取gzip压缩后的数据文件。 中描述了如何在两个数据帧之间进行差异。