Datalab 中大型数据集的数据准备和描述

Data preparation and description with large datasets in Datalab

我目前正在处理一个 6 GB 的 csv 文件，以便从 Google Cloud Platform 中的数据中提取一些见解。我过去常常使用 Cloud Datalab 来完成这项工作，因为我发现它是可视化数据的好工具。当我尝试将所有信息加载到数据框中时，问题就来了。由于我是 VM 中的运行 Datalab，我认为性能取决于该 VM 的能力。目前，每次我尝试在数据帧中加载寄存器时都会收到超时（即使尝试使用 4 个 CPU 和 15GB RAM 的 VM）。是否有任何标准程序来清理和可视化数据（如果可能，使用数据框），以及 GCP 中的大型数据集？也许我只是选择了错误的选项。

如有任何帮助，我们将不胜感激。

作为更新，我找到了一种将 csv 文件加载到具有不同库而不是 pandas 的数据框中的方法（称为 'Dask'：[link]（dask.pydata.org/en/latest)).实际上，我能够非常快速地进行一些基本操作。无论如何，我认为处理非常大的文件的解决方案是使用具有足够代表性的样本数据。

Datalab 中大型数据集的数据准备和描述

Data preparation and description with large datasets in Datalab

dataframe

google-cloud-platform

google-cloud-datalab