在非英语数据集上训练 Fasttext

Train Fastext on non-english data set

我正在进行一个新项目，我希望将单词表示为向量，我阅读了有关 Fasttext 库的信息，我看到他们有针对非英语语言的预训练模型。目的是预测不同词之间的接近度

https://fasttext.cc/docs/en/crawl-vectors.html

我想知道的是，我能否在非英语数据和新闻网站文章等方面训练 Fasttext 模型，以便针对政治和时下话题等特定类型取得更好的结果。

提前致谢！

Can I train it on non-English data sets?

当然可以。 Fasttext 在其 webiste 提供了 157 种不同语言的可用预训练模型列表，您也可以下载它们。

How long does it take to train a model for 10 GB of text?

这取决于您的系统和实施。例如，在 Mac-pro 上，使用 16Gb 内存和 facebook 实现大约需要 8-10 个小时。

is it big enough?

如果清理和预处理后的文件大小为 10Gb 是的，这就足够了。

There are any better solutions?

更好的解决方案是什么意思？如果我处在你的位置，我会先尝试预训练模型。