如果我的数据无法放入内存,请执行 EDA 并将其可视化?我的数据集大小是 200gigs
Perform EDA and visualize it if my data can not fit in memory? my dataset size is 200gigs
执行探索性数据分析是任何机器学习项目的第一步,我主要使用 pandas 使用适合内存的数据集来执行数据探索...但我想知道如何执行数据清理、处理缺失数据和数据异常值、单变量图、特征如何影响标签的密度图、相关性等
Pandas 在 Python 中进行数据分析简单直观。但由于系统内存有限,我发现在 Pandas 中处理多个更大的数据帧很困难。
对于大于 RAM 大小的数据集...100 GB
我看过教程,他们使用 spark 根据规则过滤并生成适合内存的数据框...最终总会有数据完全驻留在内存中,但我想知道如何处理大数据数据集并进行探索性数据分析
另一个挑战是将大数据可视化以进行探索性数据分析...如果适合内存,使用 seaborn 或 matplotlib 等包很容易做到,但如何对大数据执行它
提出一些具体的东西:
通常您会希望通过聚合、抽样等方式将数据减少到足够小以便直接可视化有意义
一些工具可以直接处理大于内存的 (Dask) 数据来创建视觉效果。一个好的 link 是这样的:http://pyviz.org/tutorial/10_Working_with_Large_Datasets.html
执行探索性数据分析是任何机器学习项目的第一步,我主要使用 pandas 使用适合内存的数据集来执行数据探索...但我想知道如何执行数据清理、处理缺失数据和数据异常值、单变量图、特征如何影响标签的密度图、相关性等
Pandas 在 Python 中进行数据分析简单直观。但由于系统内存有限,我发现在 Pandas 中处理多个更大的数据帧很困难。
对于大于 RAM 大小的数据集...100 GB
我看过教程,他们使用 spark 根据规则过滤并生成适合内存的数据框...最终总会有数据完全驻留在内存中,但我想知道如何处理大数据数据集并进行探索性数据分析
另一个挑战是将大数据可视化以进行探索性数据分析...如果适合内存,使用 seaborn 或 matplotlib 等包很容易做到,但如何对大数据执行它
提出一些具体的东西:
通常您会希望通过聚合、抽样等方式将数据减少到足够小以便直接可视化有意义
一些工具可以直接处理大于内存的 (Dask) 数据来创建视觉效果。一个好的 link 是这样的:http://pyviz.org/tutorial/10_Working_with_Large_Datasets.html