Python 3.6:比较两个大的 gzip 压缩 csv 文件并获取差异记录
Python 3.6: Compare two large gzipped csv files & fetch difference records
我有 2 个 gzip 压缩的 csv 文件 IMFBOP2017_1.csv.gz
和 IMFBOP2017_2.csv.gz
,两个文件中的列相同,即 "Location, Indicator, Measure, Unit, Frequency, Date"
。
总行数 6000 万+
我想比较 IMFBOP2017_1
中不存在于 IMFBOP2017_2
中的文件和显示行。
我的计划是将两个文件导入数据框,向两个数据框添加一个额外的列 "compare" 并通过所有字段合并更新它
Location|Indicator|Measure|Unit|Frequence|Date and do NOT IN operation.
我认为这是一个昂贵的过程,有什么简单的解决方案吗?
Pandas可以用普通的pandas.read_csv()
读取gzip压缩后的数据文件。 中描述了如何在两个数据帧之间进行差异。
我有 2 个 gzip 压缩的 csv 文件 IMFBOP2017_1.csv.gz
和 IMFBOP2017_2.csv.gz
,两个文件中的列相同,即 "Location, Indicator, Measure, Unit, Frequency, Date"
。
总行数 6000 万+
我想比较 IMFBOP2017_1
中不存在于 IMFBOP2017_2
中的文件和显示行。
我的计划是将两个文件导入数据框,向两个数据框添加一个额外的列 "compare" 并通过所有字段合并更新它
Location|Indicator|Measure|Unit|Frequence|Date and do NOT IN operation.
我认为这是一个昂贵的过程,有什么简单的解决方案吗?
Pandas可以用普通的pandas.read_csv()
读取gzip压缩后的数据文件。