无法使用普通语音数据训练 Wav2vec XLSR 模型
Cannot Train Wav2vec XLSR Model With Common Voice Data
我正在尝试使用丹麦语的 wav2vec XLSR 训练变压器 ASR 模型,但每当我尝试使用数据集库提取丹麦数据集时,它都会给我一个错误。
Notebook link
错误日志:
ValueError: BuilderConfig da not found. Available: ['ab', 'ar', 'as', 'br', 'ca', 'cnh', 'cs', 'cv', 'cy', 'de', 'dv', 'el', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'fy-NL', 'ga-IE', 'hi', 'hsb', 'hu', 'ia', 'id', 'it', 'ja', 'ka', 'kab', 'ky', 'lg', 'lt', 'lv', 'mn', 'mt', 'nl', 'or', 'pa-IN', 'pl', 'pt', 'rm-sursilv', 'rm-vallader', 'ro', 'ru', 'rw', 'sah', 'sl', 'sv-SE', 'ta', 'th', 'tr', 'tt', 'uk', 'vi', 'vot', 'zh-CN', 'zh-HK', 'zh-TW']
我帮你查过了
以下语言支持语料库的丹麦语子集:
- 普通语音语料库 8.0
- 普通语音语料库9.0
发布。
但是Hugging Face的数据集库(版本2.2.1)使用的是6.1.0版本的语料库。您可以通过加载语料库的任何子集并打印数据集信息来检查自己,如下所示:
代码
from datasets import load_dataset
dataset_de = load_dataset("common_voice", "de")
print(dataset_de.info)
输出
Downloading and preparing dataset common_voice/de (download: 21.68 GiB,
generated: 137.78 MiB, post-processed: Unknown size, total: 21.82 GiB) to
/root/.cache/huggingface/datasets/common_voice/de/6.1.0/
您应该等待库的新版本或向他们的 repo 提出请求。
我正在尝试使用丹麦语的 wav2vec XLSR 训练变压器 ASR 模型,但每当我尝试使用数据集库提取丹麦数据集时,它都会给我一个错误。 Notebook link
错误日志:
ValueError: BuilderConfig da not found. Available: ['ab', 'ar', 'as', 'br', 'ca', 'cnh', 'cs', 'cv', 'cy', 'de', 'dv', 'el', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'fy-NL', 'ga-IE', 'hi', 'hsb', 'hu', 'ia', 'id', 'it', 'ja', 'ka', 'kab', 'ky', 'lg', 'lt', 'lv', 'mn', 'mt', 'nl', 'or', 'pa-IN', 'pl', 'pt', 'rm-sursilv', 'rm-vallader', 'ro', 'ru', 'rw', 'sah', 'sl', 'sv-SE', 'ta', 'th', 'tr', 'tt', 'uk', 'vi', 'vot', 'zh-CN', 'zh-HK', 'zh-TW']
我帮你查过了
以下语言支持语料库的丹麦语子集:
- 普通语音语料库 8.0
- 普通语音语料库9.0
发布。
但是Hugging Face的数据集库(版本2.2.1)使用的是6.1.0版本的语料库。您可以通过加载语料库的任何子集并打印数据集信息来检查自己,如下所示:
代码
from datasets import load_dataset
dataset_de = load_dataset("common_voice", "de")
print(dataset_de.info)
输出
Downloading and preparing dataset common_voice/de (download: 21.68 GiB,
generated: 137.78 MiB, post-processed: Unknown size, total: 21.82 GiB) to
/root/.cache/huggingface/datasets/common_voice/de/6.1.0/
您应该等待库的新版本或向他们的 repo 提出请求。