python 元组列表中的 dask 数据框
dask dataframe from python list of tuples
我真的是dask的新手。我想从 python 元组列表创建一个 dask 数据框。在 pandas 中,您可以使用 DataFrame.from_records
将元组列表转换为数据框。什么功能可以在 dask 中为我提供相同的功能。
我的数据看起来有点像这样
[(21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', ''), (21262, 'booking', 'NULL')]
我现在正在使用此代码执行任务。这是正确的做法吗?
import pandas as pd
import dask
import dask.dataframe as dd
names = ['id', 'status', 'reg_entry']
dfs = dask.delayed(pd.DataFrame.from_records)(cursor.fetchall(), columns=names)
df = dd.from_delayed(dfs)
您可以尝试从现有的 pandas 数据帧创建一个 dask 数据帧(以便能够使用所有 pandas 构造函数):
df = pd.DataFrame([(21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', ''), (21262, 'booking', 'NULL')])
ddf = dd.from_pandas(df, npartitions=2)
我真的是dask的新手。我想从 python 元组列表创建一个 dask 数据框。在 pandas 中,您可以使用 DataFrame.from_records
将元组列表转换为数据框。什么功能可以在 dask 中为我提供相同的功能。
我的数据看起来有点像这样
[(21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', ''), (21262, 'booking', 'NULL')]
我现在正在使用此代码执行任务。这是正确的做法吗?
import pandas as pd
import dask
import dask.dataframe as dd
names = ['id', 'status', 'reg_entry']
dfs = dask.delayed(pd.DataFrame.from_records)(cursor.fetchall(), columns=names)
df = dd.from_delayed(dfs)
您可以尝试从现有的 pandas 数据帧创建一个 dask 数据帧(以便能够使用所有 pandas 构造函数):
df = pd.DataFrame([(21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', 'NULL'), (21262, 'booking', ''), (21262, 'booking', 'NULL')])
ddf = dd.from_pandas(df, npartitions=2)