Facebook 的 fasttext 库如何处理输入的数字数据以进行词向量化?
How do Facebook's fasttext library handle numerical data in input for word vectorization?
我正在使用 Facebook 的 Fasttext 执行文本分类。
我想知道 fasttext 库如何处理作为词向量化输入提供的文本字符串中的数字。
在创建词向量之前,fasttext 是否将每个数字都转换为字符串?
例如1124 至“ 1124 ”
或者在训练前在后台执行任何其他transformation/preprocessing?
例如1124转“一一二四”
如果我的 fasttext 输入文本包含数字,处理数字数据的最佳方法应该是什么?
Fasttext 不对数字标记进行任何预处理。它们与其他以空格分隔的 "words".
一样对待
除非您已经对输入中的快速文本和数字有特定问题,否则我不会担心快速文本对数字的作用。正常使用即可。
如果您有很多数字并且它们导致了问题 - 这是可能的,因为 fasttext 可能没有任何对大多数特定数字有用的向量 - 您可以预处理您的输入以将它们替换为 <NUMBER>
或另一个虚拟标记。这样这些句子将与 fasttext 相同:
- 我吃了1023个橘子
- 我吃了1024个橘子
是否要将它们视为相同取决于您的应用程序。
我正在使用 Facebook 的 Fasttext 执行文本分类。 我想知道 fasttext 库如何处理作为词向量化输入提供的文本字符串中的数字。
在创建词向量之前,fasttext 是否将每个数字都转换为字符串?
例如1124 至“ 1124 ”
或者在训练前在后台执行任何其他transformation/preprocessing?
例如1124转“一一二四”
如果我的 fasttext 输入文本包含数字,处理数字数据的最佳方法应该是什么?
Fasttext 不对数字标记进行任何预处理。它们与其他以空格分隔的 "words".
一样对待除非您已经对输入中的快速文本和数字有特定问题,否则我不会担心快速文本对数字的作用。正常使用即可。
如果您有很多数字并且它们导致了问题 - 这是可能的,因为 fasttext 可能没有任何对大多数特定数字有用的向量 - 您可以预处理您的输入以将它们替换为 <NUMBER>
或另一个虚拟标记。这样这些句子将与 fasttext 相同:
- 我吃了1023个橘子
- 我吃了1024个橘子
是否要将它们视为相同取决于您的应用程序。