在非英语数据集上训练 Fasttext
Train Fastext on non-english data set
我正在进行一个新项目,我希望将单词表示为向量,我阅读了有关 Fasttext 库的信息,我看到他们有针对非英语语言的预训练模型。目的是预测不同词之间的接近度
我想知道的是,我能否在非英语数据和新闻网站文章等方面训练 Fasttext 模型,以便针对政治和时下话题等特定类型取得更好的结果。
- 我可以在非英语数据集上训练它吗?
- 为 10 GB 的文本训练模型需要多长时间?够大吗?
- 有没有更好的解决方案?
提前致谢!
Can I train it on non-English data sets?
当然可以。 Fasttext 在其 webiste 提供了 157 种不同语言的可用预训练模型列表,您也可以下载它们。
How long does it take to train a model for 10 GB of text?
这取决于您的系统和实施。例如,在 Mac-pro 上,使用 16Gb 内存和 facebook 实现大约需要 8-10 个小时。
is it big enough?
如果清理和预处理后的文件大小为 10Gb 是的,这就足够了。
There are any better solutions?
更好的解决方案是什么意思?如果我处在你的位置,我会先尝试预训练模型。
我正在进行一个新项目,我希望将单词表示为向量,我阅读了有关 Fasttext 库的信息,我看到他们有针对非英语语言的预训练模型。目的是预测不同词之间的接近度
我想知道的是,我能否在非英语数据和新闻网站文章等方面训练 Fasttext 模型,以便针对政治和时下话题等特定类型取得更好的结果。
- 我可以在非英语数据集上训练它吗?
- 为 10 GB 的文本训练模型需要多长时间?够大吗?
- 有没有更好的解决方案?
提前致谢!
Can I train it on non-English data sets?
当然可以。 Fasttext 在其 webiste 提供了 157 种不同语言的可用预训练模型列表,您也可以下载它们。
How long does it take to train a model for 10 GB of text?
这取决于您的系统和实施。例如,在 Mac-pro 上,使用 16Gb 内存和 facebook 实现大约需要 8-10 个小时。
is it big enough?
如果清理和预处理后的文件大小为 10Gb 是的,这就足够了。
There are any better solutions?
更好的解决方案是什么意思?如果我处在你的位置,我会先尝试预训练模型。