fastText 可以用大于 RAM 的语料库进行训练吗?
fastText can train with a corpus bigger than RAM?
我需要在 400GB 的语料库上训练一个 fastText 模型。由于我没有 400GB RAM 的机器,我想知道 fastText 实现(例如,按照本教程 https://fasttext.cc/docs/en/unsupervised-tutorial.html )是否支持大于 RAM 的语料库,以及我会有哪些 RAM 要求。
通常对于此类模型,峰值 RAM 要求是独特单词词汇量大小的函数,而不是原始训练 material。
那么,您的 400GB 中是否只有 10 万个不同的单词?没问题,它一次只会读取一个范围,并更新少量稳定的 RAM。是否有 50M 个唯一单词?您将需要大量 RAM。
你试过看看会发生什么吗?
我需要在 400GB 的语料库上训练一个 fastText 模型。由于我没有 400GB RAM 的机器,我想知道 fastText 实现(例如,按照本教程 https://fasttext.cc/docs/en/unsupervised-tutorial.html )是否支持大于 RAM 的语料库,以及我会有哪些 RAM 要求。
通常对于此类模型,峰值 RAM 要求是独特单词词汇量大小的函数,而不是原始训练 material。
那么,您的 400GB 中是否只有 10 万个不同的单词?没问题,它一次只会读取一个范围,并更新少量稳定的 RAM。是否有 50M 个唯一单词?您将需要大量 RAM。
你试过看看会发生什么吗?