Redshift 到 dask DataFrame

Redshift to dask DataFrame

有没有人有一个很好的简洁和稳定的方法来实现相当于:

pandas.read_sql(sql, con, chunksize=None)

and/or

pandas.read_sql_table(table_name, con, schema=None, chunksize=None)

使用 SQLAlchemy 和 psycopg2 连接到 redshift,直接进入 dask DataFrame?

该解决方案应该能够处理大量数据

您可以考虑 dask.dataframe 中的 read_sql_table 函数。

http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_sql_table

>>> df = dd.read_sql_table('accounts', 'sqlite:///path/to/bank.db',
...                  npartitions=10, index_col='id')  # doctest: +SKIP

这在内部依赖于 pandas.read_sql_table 函数,因此应该能够在相同的限制下运行,只是现在要求您提供多个分区和一个索引列。