如果我的数据无法放入内存,请执行 EDA 并将其可视化?我的数据集大小是 200gigs

Perform EDA and visualize it if my data can not fit in memory? my dataset size is 200gigs

执行探索性数据分析是任何机器学习项目的第一步,我主要使用 pandas 使用适合内存的数据集来执行数据探索...但我想知道如何执行数据清理、处理缺失数据和数据异常值、单变量图、特征如何影响标签的密度图、相关性等

Pandas 在 Python 中进行数据分析简单直观。但由于系统内存有限,我发现在 Pandas 中处理多个更大的数据帧很困难。

对于大于 RAM 大小的数据集...100 GB

我看过教程,他们使用 spark 根据规则过滤并生成适合内存的数据框...最终总会有数据完全驻留在内存中,但我想知道如何处理大数据数据集并进行探索性数据分析

另一个挑战是将大数据可视化以进行探索性数据分析...如果适合内存,使用 seaborn 或 matplotlib 等包很容易做到,但如何对大数据执行它

提出一些具体的东西: