Facebook 的 fasttext 库如何处理输入的数字数据以进行词向量化？

How do Facebook's fasttext library handle numerical data in input for word vectorization?

我正在使用 Facebook 的 Fasttext 执行文本分类。我想知道 fasttext 库如何处理作为词向量化输入提供的文本字符串中的数字。

如果我的 fasttext 输入文本包含数字，处理数字数据的最佳方法应该是什么？

Fasttext 不对数字标记进行任何预处理。它们与其他以空格分隔的 "words".

一样对待

除非您已经对输入中的快速文本和数字有特定问题，否则我不会担心快速文本对数字的作用。正常使用即可。

如果您有很多数字并且它们导致了问题 - 这是可能的，因为 fasttext 可能没有任何对大多数特定数字有用的向量 - 您可以预处理您的输入以将它们替换为 <NUMBER> 或另一个虚拟标记。这样这些句子将与 fasttext 相同：

是否要将它们视为相同取决于您的应用程序。