如何将带有 to 的 csv 读入 DASK 数据框，使其不具有“未命名：0”列？

Question

目标

我想在不获取“未命名：0”列的情况下将 csv 读入 DASK 数据框。

代码

mydtype = {'col1': 'object',
           'col2': 'object',
           'col3': 'object',
           'col4': 'float32',}


do = dd.read_csv('/folder/somecsvname.csv', 
                 dtype = mydtype, 
                 low_memory=False,
                 parse_dates=['col3'],
                )

结果列

未命名：0
col1
col2
col3
col4

尝试过的解决方案

1.works 与 pandas 不与 dask -
2.works 与 pandas 不与 dask -
已添加代码以读入：index_col=False 错误消息：ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
已添加代码以读入：index_col=0 错误信息：ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
之前 2 条错误消息推荐的代码-> DISFUCTION：这只是将值设置为索引但仍会生成 'Unnamed: 0' 列

do = dd.read_csv('/folder/somecsvname.csv', 
                 dtype = mydtype, 
                 low_memory=False,
                 parse_dates=['col3'],
                ).set_index('col3')

已添加代码以读入：index_col=None 错误信息：ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
已添加代码以读入：index_col=None, header=0 错误信息：ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead

Answer 1

尝试在 read_csv 函数中添加这两个组合：

index_col=None
index_col=None, header=0

Answer 2

问题是此列 (Unnamed: 0) 存在于原始 csv 文件中。最好在生成此文件时在上游解决它。如果那不可能，那么你可以用 dask.dataframe 做的最好的事情是：

ddf = dd.read_csv(my_file)
ddf = ddf.drop('Unnamed: 0', axis=1)

这是一个可重现的例子：

import dask.dataframe as dd
import pandas as pd

df = pd.DataFrame(range(5))
df.to_csv('abc.csv')

ddf = dd.read_csv('abc.csv')
ddf = ddf.drop('Unnamed: 0', axis=1)

如何将带有 to 的 csv 读入 DASK 数据框，使其不具有“未命名：0”列？

How to read in csv with to to a DASK dataframe so it will not have “Unnamed: 0” column?

python

csv

pandas

dask

dask-dataframe