Dask DataFrame 上的值错误
Value Error on Dask DataFrames
我正在使用 dask 读取 csv 文件。但是,由于此错误,我无法对其应用或计算任何操作:
您知道这个错误是什么以及如何解决吗?
在 dask 中读取 csv 文件时,由于无法识别列的正确数据类型而出现错误。
比如我们使用dask读取一个csv文件如下:
import dask.dataframe as dd
df = dd.read_csv('\data\file.txt', sep='\t', header='infer')
这样提示上面的错误。
要解决此问题,正如@mrocklin 对此评论https://github.com/dask/dask/issues/1166 所建议的,我们需要确定列的数据类型。我们可以通过读取 pandas 中的 csv 文件并识别数据类型并将其作为参数传递给使用 dask 读取 csv 来实现。
df_pd = pd.read_csv('\data\file.txt', sep='\t', header='infer')
dt = df_pd.dtypes.to_dict()
df = dd.read_csv('\data\file.txt', sep='\t', header='infer', dtype=dt)
我正在使用 dask 读取 csv 文件。但是,由于此错误,我无法对其应用或计算任何操作:
您知道这个错误是什么以及如何解决吗?
在 dask 中读取 csv 文件时,由于无法识别列的正确数据类型而出现错误。
比如我们使用dask读取一个csv文件如下:
import dask.dataframe as dd
df = dd.read_csv('\data\file.txt', sep='\t', header='infer')
这样提示上面的错误。
要解决此问题,正如@mrocklin 对此评论https://github.com/dask/dask/issues/1166 所建议的,我们需要确定列的数据类型。我们可以通过读取 pandas 中的 csv 文件并识别数据类型并将其作为参数传递给使用 dask 读取 csv 来实现。
df_pd = pd.read_csv('\data\file.txt', sep='\t', header='infer')
dt = df_pd.dtypes.to_dict()
df = dd.read_csv('\data\file.txt', sep='\t', header='infer', dtype=dt)