Facebook 的 fasttext 库如何处理输入的数字数据以进行词向量化?

How do Facebook's fasttext library handle numerical data in input for word vectorization?

我正在使用 Facebook 的 Fasttext 执行文本分类。 我想知道 fasttext 库如何处理作为词向量化输入提供的文本字符串中的数字。

  1. 在创建词向量之前,fasttext 是否将每个数字都转换为字符串?

    例如1124 至“ 1124 ”

  2. 或者在训练前在后台执行任何其他transformation/preprocessing?

    例如1124转“一一二四”

如果我的 fasttext 输入文本包含数字,处理数字数据的最佳方法应该是什么?

Fasttext 不对数字标记进行任何预处理。它们与其他以空格分隔的 "words".

一样对待

除非您已经对输入中的快速文本和数字有特定问题,否则我不会担心快速文本对数字的作用。正常使用即可。

如果您有很多数字并且它们导致了问题 - 这是可能的,因为 fasttext 可能没有任何对大多数特定数字有用的向量 - 您可以预处理您的输入以将它们替换为 <NUMBER> 或另一个虚拟标记。这样这些句子将与 fasttext 相同:

  1. 我吃了1023个橘子
  2. 我吃了1024个橘子

是否要将它们视为相同取决于您的应用程序。