如何在 Huggingface 中从 CSV 加载自定义数据集

How to load custom dataset from CSV in Huggingfaces

我想使用 huggingfaces-transformers

从 csv 加载自定义数据集

来自https://huggingface.co/docs/datasets/loading_datasets.html#loading-from-local-files

dataset = load_dataset('csv', data_files={'train': "train_set.csv",'test': "test_set.csv"})

可以直接使用load_dataset,如官方所示documentation

我找不到任何关于支持参数的文档,但在我的实验中它们似乎与 pandas.read_csv

的那些匹配
file_dict = {
  "train" : "train.csv",
  "test" : "test.csv"
}

load_dataset(
  'csv',
  data_files=file_dict,
  delimiter=',',
  column_names=['column01', 'column02', 'column03'],
  skiprows=1
)