如何保存 Huggingface 数据集?
How do I save a Huggingface dataset?
如何将 HuggingFace 数据集写入磁盘?
我使用 JSONL 文件制作了自己的 HuggingFace 数据集:
Dataset({
features: ['id', 'text'],
num_rows: 18 })
我想将数据集保存到磁盘。
有更好的方法吗?或者,使用像 joblib 或 pickle 这样的通用库是唯一的选择吗?
您可以使用 save_to_disk 方法将 HuggingFace 数据集保存到磁盘。
例如:
from datasets import load_dataset
test_dataset = load_dataset("json", data_files="test.json", split="train")
test_dataset.save_to_disk("test.hf")
如何将 HuggingFace 数据集写入磁盘?
我使用 JSONL 文件制作了自己的 HuggingFace 数据集:
Dataset({ features: ['id', 'text'], num_rows: 18 })
我想将数据集保存到磁盘。
有更好的方法吗?或者,使用像 joblib 或 pickle 这样的通用库是唯一的选择吗?
您可以使用 save_to_disk 方法将 HuggingFace 数据集保存到磁盘。
例如:
from datasets import load_dataset
test_dataset = load_dataset("json", data_files="test.json", split="train")
test_dataset.save_to_disk("test.hf")