检查 python 中 merge/combine 期间出现的错误的大型数据帧

Inspect a large dataframe for errors arising during merge/combine in python

我希望这是一个合适的问题。如果没有,请告诉我,我会立即将其删除。

问题:

如何使用 python 检查(视觉上?)大型数据集是否存在组合过程中出现的错误?

背景:

我正在处理几个大型(但不是,你知道 "Big")数据集,我将它们组合起来形成一个更大的数据集。这个新集的大小约为 2.5G,因此它不适合大多数电子表格程序,或者至少不适合我尝试过的程序(MS Excel、OpenOffice)。

创建最终数据集的过程使用模糊匹配(通过fuzzywuzzy),我想检查匹配的结果,看看是否引入了任何错误。

截至目前,我已尝试将整个集合导入 pandas 数据框。这个 DF 有 64 列,所以当我简单地执行 df.head() 之类的操作时,结果显示的信息显然不会显示所有列;因此,我排除了仅通过多个 .head() 调用进行迭代的可能性。

有一个关于可视化数据框特定方面的类似问题。我认为我的问题是不同的,因为我不需要可视化有关底层结构或类型的任何内容。我只想目视检查我怀疑可能有错误的区域。

如何分割 10-12 行,然后转置你有一个 64 行 x 12 列的数据框。如果您没有非常大的索引名称,这应该是可读的。

import pandas as pd
import numpy as np

# Set max number of rows, 64 would be enough here but I'm trying to be safe
pd.set_option('display.max_rows', 500)

df = pd.DataFrame(np.random.randn(1000,64))
nstart = 100
# Slice 12 lines starting at nstart, and transpose that...
df.iloc[nstart:(nstart+13)].T

我在这里保留了输出,但请尝试 运行 上面的代码。