在 python 中使用 gensim 预处理数据时如何保留数字?
How do i retain numbers while preprocessing data using gensim in python?
我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词词典。但是,这也过滤了重要的数字(众议院决议、账单号等)我真正需要的。我是如何克服这个问题的?可能是通过用单词形式替换数字。不过,我该怎么做呢?
您不必使用 simple_preprocess()
- 它没有做太多,它不是那么可配置或复杂,通常其他 Gensim 算法只需要令牌列表。
因此,选择您自己的标记化 - 在某些情况下,这取决于您的源数据,可以像 .split()
空格一样简单。
如果您想了解 simple_preprocess()
作为模型的作用,您可以在以下位置查看其 Python 来源:
我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词词典。但是,这也过滤了重要的数字(众议院决议、账单号等)我真正需要的。我是如何克服这个问题的?可能是通过用单词形式替换数字。不过,我该怎么做呢?
您不必使用 simple_preprocess()
- 它没有做太多,它不是那么可配置或复杂,通常其他 Gensim 算法只需要令牌列表。
因此,选择您自己的标记化 - 在某些情况下,这取决于您的源数据,可以像 .split()
空格一样简单。
如果您想了解 simple_preprocess()
作为模型的作用,您可以在以下位置查看其 Python 来源: