使用 python 比较 2 个大型 CSV - 输出差异
Compare 2 large CSVs using python - output the differences
我正在编写一个程序来比较两个文件路径之间的所有文件和目录(基本上文件元数据、内容和内部目录应该匹配)
逐行比较文件内容。 csv 的尺寸可能相同也可能不同,但以下方法通常管理尺寸不相同的场景。
问题是处理时间太慢了。
一些上下文:
- 使用filecmp
识别出两个文件不同
- 这个特别有问题的 csv 大约有 11k 列和 800 行。
- 我的程序不知道里面的数据类型是什么
事先的 csv,所以定义 pandas 的 dtype 是
不是一个选项
- 如果 csv 文件很小,Difflib 会做得很好,但不适用于这个特定的用例
我查看了所有关于 SO 的相关问题,并尝试了这些方法,但处理时间非常糟糕。方法 3 给出了奇怪的结果
方法 1 (Pandas) - 糟糕的等待,我不断收到此错误
UserWarning: You are merging on int and float columns where the float values are not equal to their int representation.
import pandas as pd
import numpy as np
df1 = pd.read_csv(f1)
df2 = pd.read_csv(f2)
diff = df1.merge(df2, how='outer', indicator='exists').query("exists!='both'")
print(diff)
方法 2 (Difflib) - 等待这个巨大的 csv 太糟糕了
import difflib
def CompareUsingDiffLib(f1, f2 ):
html = h.make_file(file1_lines, file2_lines, context=True,numlines=0)
htmlfilepath = filePath + "\htmlFiles"
with open(htmlfilepath, 'w') as fh:
fh.write(html)
with open (file1) as f, open(file2) as z:
f1 = f.readlines()
f2 = z.readlines()
CompareUsingDiffLib(f1, f2 )
方法 3(纯 python)- 不正确的结果
with open (f1) as f, open(f2) as z:
file1 = f.readlines()
file2 = z.readlines()
# check row number of diff in file 1
for line in file1:
if line not in file2:
print(file1.index(line))
# it shows from all the row from row number 278 to last row
# is not in file 2, which is incorrect
# I checked using difflib, and using excel as well
# no idea why the results are like that
# running below code shows the same result as the first block of code
for line in file2:
if line not in file1:
print(file2.index(line))
方法 4 (csv-diff) - 糟糕的等待
from csv_diff import load_csv, compare
diff = compare(
load_csv(open("one.csv")),
load_csv(open("two.csv"))
)
有人可以帮忙吗:
- 处理时间更短的方法
- 调试方法 3
使用可以使用filecmp
逐字节比较两个文件。 docs
实施
>>> import filecmp
>>> filecmp.cmp('somepath/file1.csv', 'otherpath/file1.csv')
True
>>> filecmp.cmp('somepath/file1.csv', 'otherpath/file2.csv')
True
注意:文件名无关紧要。
与散列的速度比较:
将文件与 readlines()
进行比较并仅测试 成员身份 (“这个 在 那个?”)不等于区分线条。
with open (f1) as f, open(f2) as z:
file1 = f.readlines()
file2 = z.readlines()
for line in file1:
if line not in file2:
print(file1.index(line))
考虑这两个 CSV:
file1.csv file2.csv
----------- -----------
a,b,c,d a,b,c,d
1,2,3,4 1,2,3,4
A,B,C,D i,ii,iii,iv
i,ii,iii,iv A,B,C,D
该脚本不会产生任何结果(并给人以没有差异的错误印象)因为文件 1 中的每一行都在 文件 2 中,即使文件不同 line-for-line. (不过,我不能说为什么你认为你在没有看到文件的情况下得到了误报。)
我建议使用 CSV 模块逐行迭代文件,然后逐列迭代:
import csv
path1 = "file1.csv"
path2 = "file2.csv"
with open(path1) as f1, open(path2) as f2:
reader1 = csv.reader(f1)
reader2 = csv.reader(f2)
for i, row1 in enumerate(reader1):
try:
row2 = next(reader2)
except StopIteration:
print(f"Row {i+1}, f1 has this extra row compared to f2")
continue
if row1 == row2:
continue
if len(row1) != len(row2):
print(f"Row {i+1} of f1 has {len(row1)} cols, f2 has {len(row2)} cols")
continue
for j, cell1 in enumerate(row1):
cell2 = row2[j]
if cell1 != cell2:
print(f'Row {i+1}, Col {j+1} of f1 is "{cell1}", f2 is "{cell2}"')
for row2 in reader2:
i += 1
print(f"Row {i+1}, f2 has this extra row compared to f1")
这使用 file1 的迭代器来驱动 file2 的迭代器,如果 file1 的行数多于 file2,则通过记录 StopIteration
异常来解释两个文件之间行数的任何差异,并打印如果在最底部的 file2 (reader2) 中还有任何行要读取,则不同。
当我 运行 针对这些文件时:
file1 file2
----------- ----------
a,b,c,d a,b,c
1,2,3,4 1,2,3,4
A,B,C,D A,B,C,Z
i,ii,iii,iv i,ii,iii,iv
x,xo,xox,xoxo
我得到:
Row 1 of f1 has 4 cols, f2 has 3 cols
Row 3, Col 4 of f1 is "D", f2 is "Z"
Row 5, f2 has an extra row compared to f1
如果我交换路径 1 和路径 2,我得到这个:
Row 1 of f1 has 3 cols, f2 has 4 cols
Row 3, Col 4 of f1 is "Z", f2 is "D"
Row 5, f1 has this extra row compared to f2
而且速度很快。我模拟了两个 800 x 11_000 CSV,行之间的差异非常非常小(如果有的话),它在用户时间不到一秒的时间内处理了所有差异(不包括打印)。
我正在编写一个程序来比较两个文件路径之间的所有文件和目录(基本上文件元数据、内容和内部目录应该匹配)
逐行比较文件内容。 csv 的尺寸可能相同也可能不同,但以下方法通常管理尺寸不相同的场景。
问题是处理时间太慢了。
一些上下文:
- 使用filecmp 识别出两个文件不同
- 这个特别有问题的 csv 大约有 11k 列和 800 行。
- 我的程序不知道里面的数据类型是什么 事先的 csv,所以定义 pandas 的 dtype 是 不是一个选项
- 如果 csv 文件很小,Difflib 会做得很好,但不适用于这个特定的用例
我查看了所有关于 SO 的相关问题,并尝试了这些方法,但处理时间非常糟糕。方法 3 给出了奇怪的结果
方法 1 (Pandas) - 糟糕的等待,我不断收到此错误
UserWarning: You are merging on int and float columns where the float values are not equal to their int representation.
import pandas as pd
import numpy as np
df1 = pd.read_csv(f1)
df2 = pd.read_csv(f2)
diff = df1.merge(df2, how='outer', indicator='exists').query("exists!='both'")
print(diff)
方法 2 (Difflib) - 等待这个巨大的 csv 太糟糕了
import difflib
def CompareUsingDiffLib(f1, f2 ):
html = h.make_file(file1_lines, file2_lines, context=True,numlines=0)
htmlfilepath = filePath + "\htmlFiles"
with open(htmlfilepath, 'w') as fh:
fh.write(html)
with open (file1) as f, open(file2) as z:
f1 = f.readlines()
f2 = z.readlines()
CompareUsingDiffLib(f1, f2 )
方法 3(纯 python)- 不正确的结果
with open (f1) as f, open(f2) as z:
file1 = f.readlines()
file2 = z.readlines()
# check row number of diff in file 1
for line in file1:
if line not in file2:
print(file1.index(line))
# it shows from all the row from row number 278 to last row
# is not in file 2, which is incorrect
# I checked using difflib, and using excel as well
# no idea why the results are like that
# running below code shows the same result as the first block of code
for line in file2:
if line not in file1:
print(file2.index(line))
方法 4 (csv-diff) - 糟糕的等待
from csv_diff import load_csv, compare
diff = compare(
load_csv(open("one.csv")),
load_csv(open("two.csv"))
)
有人可以帮忙吗:
- 处理时间更短的方法
- 调试方法 3
使用可以使用filecmp
逐字节比较两个文件。 docs
实施
>>> import filecmp
>>> filecmp.cmp('somepath/file1.csv', 'otherpath/file1.csv')
True
>>> filecmp.cmp('somepath/file1.csv', 'otherpath/file2.csv')
True
注意:文件名无关紧要。
与散列的速度比较:
将文件与 readlines()
进行比较并仅测试 成员身份 (“这个 在 那个?”)不等于区分线条。
with open (f1) as f, open(f2) as z:
file1 = f.readlines()
file2 = z.readlines()
for line in file1:
if line not in file2:
print(file1.index(line))
考虑这两个 CSV:
file1.csv file2.csv
----------- -----------
a,b,c,d a,b,c,d
1,2,3,4 1,2,3,4
A,B,C,D i,ii,iii,iv
i,ii,iii,iv A,B,C,D
该脚本不会产生任何结果(并给人以没有差异的错误印象)因为文件 1 中的每一行都在 文件 2 中,即使文件不同 line-for-line. (不过,我不能说为什么你认为你在没有看到文件的情况下得到了误报。)
我建议使用 CSV 模块逐行迭代文件,然后逐列迭代:
import csv
path1 = "file1.csv"
path2 = "file2.csv"
with open(path1) as f1, open(path2) as f2:
reader1 = csv.reader(f1)
reader2 = csv.reader(f2)
for i, row1 in enumerate(reader1):
try:
row2 = next(reader2)
except StopIteration:
print(f"Row {i+1}, f1 has this extra row compared to f2")
continue
if row1 == row2:
continue
if len(row1) != len(row2):
print(f"Row {i+1} of f1 has {len(row1)} cols, f2 has {len(row2)} cols")
continue
for j, cell1 in enumerate(row1):
cell2 = row2[j]
if cell1 != cell2:
print(f'Row {i+1}, Col {j+1} of f1 is "{cell1}", f2 is "{cell2}"')
for row2 in reader2:
i += 1
print(f"Row {i+1}, f2 has this extra row compared to f1")
这使用 file1 的迭代器来驱动 file2 的迭代器,如果 file1 的行数多于 file2,则通过记录 StopIteration
异常来解释两个文件之间行数的任何差异,并打印如果在最底部的 file2 (reader2) 中还有任何行要读取,则不同。
当我 运行 针对这些文件时:
file1 file2
----------- ----------
a,b,c,d a,b,c
1,2,3,4 1,2,3,4
A,B,C,D A,B,C,Z
i,ii,iii,iv i,ii,iii,iv
x,xo,xox,xoxo
我得到:
Row 1 of f1 has 4 cols, f2 has 3 cols
Row 3, Col 4 of f1 is "D", f2 is "Z"
Row 5, f2 has an extra row compared to f1
如果我交换路径 1 和路径 2,我得到这个:
Row 1 of f1 has 3 cols, f2 has 4 cols
Row 3, Col 4 of f1 is "Z", f2 is "D"
Row 5, f1 has this extra row compared to f2
而且速度很快。我模拟了两个 800 x 11_000 CSV,行之间的差异非常非常小(如果有的话),它在用户时间不到一秒的时间内处理了所有差异(不包括打印)。