如何改造 fasttext 模型?
How to retrofit a fasttext model?
我阅读了各种研究论文,可以改进 fasttext 模型以提高其准确性 (https://github.com/mfaruqui/retrofitting)。但是我在如何实现它方面遇到了问题。
上面的github link,会把一个矢量图文件改造一下,输出另一个矢量图文件。我可以使用 gensim 库加载它。然而,由于它是一个矢量文件,它不再是一个模型,它不会预测 OOV(out-of-vocabulary)词。这使它毫无意义。有没有办法以某种方式重新训练模型以使其具有更高的准确性?
据我阅读 paper and browsing the repository 的理解,提议的方法只允许提高输入中给出的向量 (.vec) 的质量。
如您所见,fastText 表示词汇外单词的能力是 .bin 模型(包含所有 n-gram 的向量)所固有的。
正如您可能已经了解的那样,使用建议的方法,没有开箱即用的方法来改进 fastText 模型。
我阅读了各种研究论文,可以改进 fasttext 模型以提高其准确性 (https://github.com/mfaruqui/retrofitting)。但是我在如何实现它方面遇到了问题。
上面的github link,会把一个矢量图文件改造一下,输出另一个矢量图文件。我可以使用 gensim 库加载它。然而,由于它是一个矢量文件,它不再是一个模型,它不会预测 OOV(out-of-vocabulary)词。这使它毫无意义。有没有办法以某种方式重新训练模型以使其具有更高的准确性?
据我阅读 paper and browsing the repository 的理解,提议的方法只允许提高输入中给出的向量 (.vec) 的质量。
如您所见
正如您可能已经了解的那样,使用建议的方法,没有开箱即用的方法来改进 fastText 模型。