如何访问 FastText 分类器管道?

How to access to FastText classifier pipeline?

我们知道 FacebookFastText is a great open-source, free, lightweight library which can be used for text classification. But here a problem is the pipeline seem to be end-to end black-box. Yes, we can change the hyper-parameters from these options 用于设置训练配置。但是我无法设法找到一种方法来访问它在内部生成的向量嵌入。

实际上我想对向量嵌入做一些操作——比如在这些 word2vec 表示之外引入 tf-idf 加权,我想做的另一件事是使用 SMOTE 进行过采样需要数字表示。由于这些原因,我需要在我似乎无法访问的整个管道之间引入我的自定义代码。如何在此管道中引入自定义步骤?

完整的源代码可用:

https://github.com/facebookresearch/fastText

因此,如果您愿意阅读和修改其 C++ 源代码,您可以进行任何您能想到的更改或扩展。没有任何东西是隐藏的或不可访问的。

请注意,FastText 及其 supervised 分类模式主要是训练浅层神经网络的约定。将其视为其他分类器库体系结构中的“管道”可能没有帮助 - 因为 none 的内部接口使用那种语言或模块化布局。

具体来说,如果您掌握了 word2vec 训练的要点,FastText 分类器模式实际上只是用已知标签的尝试预测替换了相邻(上下文中 window)词汇的尝试预测。

为了理解 FastText 与其他技术的关系,以及进一步扩展的潜在方面,我认为回顾一下也很有用: