如何将带有 to 的 csv 读入 DASK 数据框,使其不具有“未命名:0”列?
How to read in csv with to to a DASK dataframe so it will not have “Unnamed: 0” column?
目标
我想在不获取“未命名:0”列的情况下将 csv 读入 DASK 数据框。
代码
mydtype = {'col1': 'object',
'col2': 'object',
'col3': 'object',
'col4': 'float32',}
do = dd.read_csv('/folder/somecsvname.csv',
dtype = mydtype,
low_memory=False,
parse_dates=['col3'],
)
结果列
- 未命名:0
- col1
- col2
- col3
- col4
尝试过的解决方案
- 1.works 与 pandas 不与 dask -
- 2.works 与 pandas 不与 dask -
- 已添加代码以读入:
index_col=False
错误消息:ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
- 已添加代码以读入:
index_col=0
错误信息:ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
- 之前 2 条错误消息推荐的代码-> DISFUCTION:这只是将值设置为索引但仍会生成 'Unnamed: 0' 列
do = dd.read_csv('/folder/somecsvname.csv',
dtype = mydtype,
low_memory=False,
parse_dates=['col3'],
).set_index('col3')
- 已添加代码以读入:
index_col=None
错误信息:ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
- 已添加代码以读入:
index_col=None, header=0
错误信息:ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
尝试在 read_csv 函数中添加这两个组合:
index_col=None
index_col=None, header=0
问题是此列 (Unnamed: 0
) 存在于原始 csv 文件中。最好在生成此文件时在上游解决它。如果那不可能,那么你可以用 dask.dataframe
做的最好的事情是:
ddf = dd.read_csv(my_file)
ddf = ddf.drop('Unnamed: 0', axis=1)
这是一个可重现的例子:
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(range(5))
df.to_csv('abc.csv')
ddf = dd.read_csv('abc.csv')
ddf = ddf.drop('Unnamed: 0', axis=1)
目标
我想在不获取“未命名:0”列的情况下将 csv 读入 DASK 数据框。
代码
mydtype = {'col1': 'object',
'col2': 'object',
'col3': 'object',
'col4': 'float32',}
do = dd.read_csv('/folder/somecsvname.csv',
dtype = mydtype,
low_memory=False,
parse_dates=['col3'],
)
结果列
- 未命名:0
- col1
- col2
- col3
- col4
尝试过的解决方案
- 1.works 与 pandas 不与 dask -
- 2.works 与 pandas 不与 dask -
- 已添加代码以读入:
index_col=False
错误消息:ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
- 已添加代码以读入:
index_col=0
错误信息:ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
- 之前 2 条错误消息推荐的代码-> DISFUCTION:这只是将值设置为索引但仍会生成 'Unnamed: 0' 列
do = dd.read_csv('/folder/somecsvname.csv',
dtype = mydtype,
low_memory=False,
parse_dates=['col3'],
).set_index('col3')
- 已添加代码以读入:
index_col=None
错误信息:ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
- 已添加代码以读入:
index_col=None, header=0
错误信息:ValueError: Keywords 'index' and 'index_col' not supported. Use dd.read_csv(...).set_index('my-index') instead
尝试在 read_csv 函数中添加这两个组合:
index_col=None
index_col=None, header=0
问题是此列 (Unnamed: 0
) 存在于原始 csv 文件中。最好在生成此文件时在上游解决它。如果那不可能,那么你可以用 dask.dataframe
做的最好的事情是:
ddf = dd.read_csv(my_file)
ddf = ddf.drop('Unnamed: 0', axis=1)
这是一个可重现的例子:
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(range(5))
df.to_csv('abc.csv')
ddf = dd.read_csv('abc.csv')
ddf = ddf.drop('Unnamed: 0', axis=1)