Redshift 到 dask DataFrame
Redshift to dask DataFrame
有没有人有一个很好的简洁和稳定的方法来实现相当于:
pandas.read_sql(sql, con, chunksize=None)
and/or
pandas.read_sql_table(table_name, con, schema=None, chunksize=None)
使用 SQLAlchemy 和 psycopg2 连接到 redshift,直接进入 dask DataFrame?
该解决方案应该能够处理大量数据
您可以考虑 dask.dataframe 中的 read_sql_table
函数。
http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_sql_table
>>> df = dd.read_sql_table('accounts', 'sqlite:///path/to/bank.db',
... npartitions=10, index_col='id') # doctest: +SKIP
这在内部依赖于 pandas.read_sql_table
函数,因此应该能够在相同的限制下运行,只是现在要求您提供多个分区和一个索引列。
有没有人有一个很好的简洁和稳定的方法来实现相当于:
pandas.read_sql(sql, con, chunksize=None)
and/or
pandas.read_sql_table(table_name, con, schema=None, chunksize=None)
使用 SQLAlchemy 和 psycopg2 连接到 redshift,直接进入 dask DataFrame?
该解决方案应该能够处理大量数据
您可以考虑 dask.dataframe 中的 read_sql_table
函数。
http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_sql_table
>>> df = dd.read_sql_table('accounts', 'sqlite:///path/to/bank.db',
... npartitions=10, index_col='id') # doctest: +SKIP
这在内部依赖于 pandas.read_sql_table
函数,因此应该能够在相同的限制下运行,只是现在要求您提供多个分区和一个索引列。