Redshift 到 dask DataFrame

Question

有没有人有一个很好的简洁和稳定的方法来实现相当于：

pandas.read_sql(sql, con, chunksize=None)

and/or

pandas.read_sql_table(table_name, con, schema=None, chunksize=None)

使用 SQLAlchemy 和 psycopg2 连接到 redshift，直接进入 dask DataFrame？

该解决方案应该能够处理大量数据

Answer 1

您可以考虑 dask.dataframe 中的 read_sql_table 函数。

>>> df = dd.read_sql_table('accounts', 'sqlite:///path/to/bank.db',
...                  npartitions=10, index_col='id')  # doctest: +SKIP

这在内部依赖于 pandas.read_sql_table 函数，因此应该能够在相同的限制下运行，只是现在要求您提供多个分区和一个索引列。

Redshift to dask DataFrame