fastText 可以用大于 RAM 的语料库进行训练吗?

fastText can train with a corpus bigger than RAM?

我需要在 400GB 的语料库上训练一个 fastText 模型。由于我没有 400GB RAM 的机器,我想知道 fastText 实现(例如,按照本教程 https://fasttext.cc/docs/en/unsupervised-tutorial.html )是否支持大于 RAM 的语料库,以及我会有哪些 RAM 要求。

通常对于此类模型,峰值 RAM 要求是独特单词词汇量大小的函数,而不是原始训练 material。

那么,您的 400GB 中是否只有 10 万个不同的单词?没问题,它一次只会读取一个范围,并更新少量稳定的 RAM。是否有 50M 个唯一单词?您将需要大量 RAM。

你试过看看会发生什么吗?