使用 Python Dask 检查数据质量

Data Quality check with Python Dask

目前正在尝试编写代码来检查 7 GB 数据文件的数据质量。我试过谷歌搜索但无济于事。最初,代码的目的是检查有多少 nulls/NaNs ,然后将其与另一个数据文件结合起来并比较每个文件之间的质量。我们期望第二个更可靠,但我想稍后将整个过程自动化。我想知道这里是否有人愿意使用 Dask 分享他们的数据质量 python 代码。谢谢

我建议采用以下方法:

  • 尝试定义如何检查小型数据集的质量并在 Pandas
  • 中实施
  • 尝试以一种方式概括该过程,如果每个“文件的一部分”或分区的质量都很好,那么整个数据集就可以被认为是质量好的。
  • 使用 Dask 的 map_partitions 将此处理并行化到数据集的分区上。