在非英语数据集上训练 Fasttext

Train Fastext on non-english data set

我正在进行一个新项目,我希望将单词表示为向量,我阅读了有关 Fasttext 库的信息,我看到他们有针对非英语语言的预训练模型。目的是预测不同词之间的接近度

https://fasttext.cc/docs/en/crawl-vectors.html

我想知道的是,我能否在非英语数据和新闻网站文章等方面训练 Fasttext 模型,以便针对政治和时下话题等特定类型取得更好的结果。

  1. 我可以在非英语数据集上训练它吗?
  2. 为 10 GB 的文本训练模型需要多长时间?够大吗?
  3. 有没有更好的解决方案?

提前致谢!

Can I train it on non-English data sets?

当然可以。 Fasttext 在其 webiste 提供了 157 种不同语言的可用预训练模型列表,您也可以下载它们。

How long does it take to train a model for 10 GB of text?

这取决于您的系统和实施。例如,在 Mac-pro 上,使用 16Gb 内存和 facebook 实现大约需要 8-10 个小时。

is it big enough?

如果清理和预处理后的文件大小为 10Gb 是的,这就足够了。

There are any better solutions?

更好的解决方案是什么意思?如果我处在你的位置,我会先尝试预训练模型。