Google Ngram 查看器 - 英语一百万
Google Ngram Viewer - English One Million
我正在 PyTorch 中训练语言模型,我需要英语中最常见的一百万个单词作为字典。
据我了解,Google Ngram English One Million(1 克)可能适合这项任务,但在下载该数据集的每个部分 (0-9) 并使用 tail
之后他们检查它们是否如我所想,我发现这个数据集的任何部分都不包含 F 字母以外的单词。
据我所知,任何版本 1 文件的 ngram 都按字母顺序和时间顺序排序,我担心最常见的一百万个单词是否可能不超过 F?
还是我错过了这个数据集的要点,它不是最常见的一百万个单词?
尝试shuf <file>
进行随机排序,您会看到数据涵盖了所有字母。您在文件末尾看到的不是 f
而是连字 fl
.
我正在 PyTorch 中训练语言模型,我需要英语中最常见的一百万个单词作为字典。
据我了解,Google Ngram English One Million(1 克)可能适合这项任务,但在下载该数据集的每个部分 (0-9) 并使用 tail
之后他们检查它们是否如我所想,我发现这个数据集的任何部分都不包含 F 字母以外的单词。
据我所知,任何版本 1 文件的 ngram 都按字母顺序和时间顺序排序,我担心最常见的一百万个单词是否可能不超过 F?
还是我错过了这个数据集的要点,它不是最常见的一百万个单词?
尝试shuf <file>
进行随机排序,您会看到数据涵盖了所有字母。您在文件末尾看到的不是 f
而是连字 fl
.