使用 python 比较 2 个大型 CSV - 输出差异

Compare 2 large CSVs using python - output the differences

我正在编写一个程序来比较两个文件路径之间的所有文件和目录(基本上文件元数据、内容和内部目录应该匹配)

逐行比较文件内容。 csv 的尺寸可能相同也可能不同,但以下方法通常管理尺寸不相同的场景。

问题是处理时间太慢了。

一些上下文:

  1. 使用filecmp
  2. 识别出两个文件不同
  3. 这个特别有问题的 csv 大约有 11k 列和 800 行。
  4. 我的程序不知道里面的数据类型是什么 事先的 csv,所以定义 pandas 的 dtype 是 不是一个选项
  5. 如果 csv 文件很小,Difflib 会做得很好,但不适用于这个特定的用例

我查看了所有关于 SO 的相关问题,并尝试了这些方法,但处理时间非常糟糕。方法 3 给出了奇怪的结果

方法 1 (Pandas) - 糟糕的等待,我不断收到此错误

UserWarning: You are merging on int and float columns where the float values are not equal to their int representation.

import pandas as pd
import numpy as np

df1 = pd.read_csv(f1)
df2 = pd.read_csv(f2)
diff = df1.merge(df2, how='outer', indicator='exists').query("exists!='both'")
print(diff)

方法 2 (Difflib) - 等待这个巨大的 csv 太糟糕了

import difflib 

def CompareUsingDiffLib(f1, f2 ):
    html = h.make_file(file1_lines, file2_lines, context=True,numlines=0)
    htmlfilepath = filePath + "\htmlFiles"
    with open(htmlfilepath, 'w') as fh: 
        fh.write(html)

with open (file1) as f, open(file2) as z:
    f1 = f.readlines()
    f2 = z.readlines()
    CompareUsingDiffLib(f1, f2 )  

方法 3(纯 python)- 不正确的结果

with open (f1) as f, open(f2) as z:
    file1 = f.readlines()
    file2 = z.readlines()
# check row number of diff in file 1
    for line in file1:
        if line not in file2:
            print(file1.index(line))

# it shows from all the row from row number 278 to last row 
# is not in file 2, which is incorrect 
# I checked using difflib, and using excel as well
# no idea why the results are like that

# running below code shows the same result as the first block of code
    for line in file2:
        if line not in file1:
            print(file2.index(line))

方法 4 (csv-diff) - 糟糕的等待

from csv_diff import load_csv, compare

diff = compare(
    load_csv(open("one.csv")),
    load_csv(open("two.csv"))
)

有人可以帮忙吗:

  1. 处理时间更短的方法
  2. 调试方法 3

使用可以使用filecmp逐字节比较两个文件。 docs

实施

>>> import filecmp
>>> filecmp.cmp('somepath/file1.csv', 'otherpath/file1.csv')
True
>>> filecmp.cmp('somepath/file1.csv', 'otherpath/file2.csv')
True

注意:文件名无关紧要。

与散列的速度比较:

将文件与 readlines() 进行比较并仅测试 成员身份 (“这个 那个?”)不等于区分线条。

with open (f1) as f, open(f2) as z:
    file1 = f.readlines()
    file2 = z.readlines()

    for line in file1:
        if line not in file2:
            print(file1.index(line))

考虑这两个 CSV:

file1.csv     file2.csv
-----------   -----------
a,b,c,d       a,b,c,d
1,2,3,4       1,2,3,4
A,B,C,D       i,ii,iii,iv 
i,ii,iii,iv   A,B,C,D

该脚本不会产生任何结果(并给人以没有差异的错误印象)因为文件 1 中的每一行都在 文件 2 中,即使文件不同 line-for-line. (不过,我不能说为什么你认为你在没有看到文件的情况下得到了误报。)

我建议使用 CSV 模块逐行迭代文件,然后逐列迭代:

import csv

path1 = "file1.csv"
path2 = "file2.csv"

with open(path1) as f1, open(path2) as f2:
    reader1 = csv.reader(f1)
    reader2 = csv.reader(f2)

    for i, row1 in enumerate(reader1):
        try:
            row2 = next(reader2)
        except StopIteration:
            print(f"Row {i+1}, f1 has this extra row compared to f2")
            continue

        if row1 == row2:
            continue

        if len(row1) != len(row2):
            print(f"Row {i+1} of f1 has {len(row1)} cols, f2 has {len(row2)} cols")
            continue

        for j, cell1 in enumerate(row1):
            cell2 = row2[j]
            if cell1 != cell2:
                print(f'Row {i+1}, Col {j+1} of f1 is "{cell1}", f2 is "{cell2}"')

    for row2 in reader2:
        i += 1
        print(f"Row {i+1}, f2 has this extra row compared to f1")

这使用 file1 的迭代器来驱动 file2 的迭代器,如果 file1 的行数多于 file2,则通过记录 StopIteration 异常来解释两个文件之间行数的任何差异,并打印如果在最底部的 file2 (reader2) 中还有任何行要读取,则不同。

当我 运行 针对这些文件时:

file1         file2
-----------   ----------
a,b,c,d       a,b,c      
1,2,3,4       1,2,3,4    
A,B,C,D       A,B,C,Z    
i,ii,iii,iv   i,ii,iii,iv
              x,xo,xox,xoxo

我得到:

Row 1 of f1 has 4 cols, f2 has 3 cols
Row 3, Col 4 of f1 is "D", f2 is "Z"
Row 5, f2 has an extra row compared to f1

如果我交换路径 1 和路径 2,我得到这个:

Row 1 of f1 has 3 cols, f2 has 4 cols
Row 3, Col 4 of f1 is "Z", f2 is "D"
Row 5, f1 has this extra row compared to f2

而且速度很快。我模拟了两个 800 x 11_000 CSV,行之间的差异非常非常小(如果有的话),它在用户时间不到一秒的时间内处理了所有差异(不包括打印)。