Blaza 和 Pandas 的大数据

Big Data with Blaza and Pandas

我想知道这种方法对项目来说是否过大。 我有一个 4gb 的文件,显然我的电脑无法处理。使用 Blaze 将文件拆分为更易于管理的文件大小并使用 pandas 打开并使用 Bokeh 进行可视化会不会有点矫枉过正?

我知道 Pandas 有一个 "chunk" 函数,但我想拆分它们的原因是因为有与我需要分析的特定名称相关的特定行。

有没有其他方法可以让我的笔记本电脑崩溃并且不需要设置 Hadoop 或任何 AWS 服务?

Pandas 与 pd.read_csv(..., chunksize=...) 分块效果很好。

或者 dask.dataframe 模仿 Pandas 界面并为您处理分块。