出于测试目的比较两个考拉数据帧
Comparing two koalas dataframes for testing purposes
Pandas 有一个包含 assert_frames_equal
的测试模块。考拉有没有类似的东西?
我正在编写对 koalas 数据帧的一整套转换的测试。起初,由于我的测试 csv 文件只有几行 (<10),我考虑只使用 pandas。不幸的是,这些文件非常宽(接近 200 列)并且具有在 spark 读取文件时指定的各种数据类型。由于 pandas 的类型规范与 koalas 的类型规范非常不同,除了我们已经为 spark 编写的类型模式之外,我还必须编写一整~200 个数据类型列表。这就是为什么我们决定使用 spark 和 koalas 为测试创建数据帧会更有效。但是,我在文档中找不到一种方法来比较数据帧以查看转换结果是否与我们创建的预期结果相同。
我最终使用了这个:
assert_frames_equal(kdf1.to_pandas(), kdf2.to_pandas())
这行得通,而且我认为还可以,因为数据框“很小”。我想知道为什么没有在 koalas 中本地实现这样的原因是因为这种断言的主要用途是在测试中,而测试应该是小数据帧。
Pandas 有一个包含 assert_frames_equal
的测试模块。考拉有没有类似的东西?
我正在编写对 koalas 数据帧的一整套转换的测试。起初,由于我的测试 csv 文件只有几行 (<10),我考虑只使用 pandas。不幸的是,这些文件非常宽(接近 200 列)并且具有在 spark 读取文件时指定的各种数据类型。由于 pandas 的类型规范与 koalas 的类型规范非常不同,除了我们已经为 spark 编写的类型模式之外,我还必须编写一整~200 个数据类型列表。这就是为什么我们决定使用 spark 和 koalas 为测试创建数据帧会更有效。但是,我在文档中找不到一种方法来比较数据帧以查看转换结果是否与我们创建的预期结果相同。
我最终使用了这个:
assert_frames_equal(kdf1.to_pandas(), kdf2.to_pandas())
这行得通,而且我认为还可以,因为数据框“很小”。我想知道为什么没有在 koalas 中本地实现这样的原因是因为这种断言的主要用途是在测试中,而测试应该是小数据帧。