如何将带有 to 的 csv 读入 DASK 数据框,使其不具有“未命名:0”列?

How to read in csv with to to a DASK dataframe so it will not have “Unnamed: 0” column?

目标

我想在不获取“未命名:0”列的情况下将 csv 读入 DASK 数据框。

代码

mydtype = {'col1': 'object',
           'col2': 'object',
           'col3': 'object',
           'col4': 'float32',}


do = dd.read_csv('/folder/somecsvname.csv', 
                 dtype = mydtype, 
                 low_memory=False,
                 parse_dates=['col3'],
                )

结果列

尝试过的解决方案

do = dd.read_csv('/folder/somecsvname.csv', 
                 dtype = mydtype, 
                 low_memory=False,
                 parse_dates=['col3'],
                ).set_index('col3')

尝试在 read_csv 函数中添加这两个组合:

index_col=None
index_col=None, header=0

问题是此列 (Unnamed: 0) 存在于原始 csv 文件中。最好在生成此文件时在上游解决它。如果那不可能,那么你可以用 dask.dataframe 做的最好的事情是:

ddf = dd.read_csv(my_file)
ddf = ddf.drop('Unnamed: 0', axis=1)

这是一个可重现的例子:

import dask.dataframe as dd
import pandas as pd

df = pd.DataFrame(range(5))
df.to_csv('abc.csv')

ddf = dd.read_csv('abc.csv')
ddf = ddf.drop('Unnamed: 0', axis=1)