如何保存 Huggingface 数据集?

How do I save a Huggingface dataset?

如何将 HuggingFace 数据集写入磁盘?

我使用 JSONL 文件制作了自己的 HuggingFace 数据集:

Dataset({ features: ['id', 'text'], num_rows: 18 })

我想将数据集保存到磁盘。

有更好的方法吗?或者,使用像 joblib 或 pickle 这样的通用库是唯一的选择吗?

您可以使用 save_to_disk 方法将 HuggingFace 数据集保存到磁盘。

例如:

from datasets import load_dataset
  
test_dataset = load_dataset("json", data_files="test.json", split="train")

test_dataset.save_to_disk("test.hf")