在 python 中使用 gensim 预处理数据时如何保留数字?

How do i retain numbers while preprocessing data using gensim in python?

我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词词典。但是,这也过滤了重要的数字(众议院决议、账单号等)我真正需要的。我是如何克服这个问题的?可能是通过用单词形式替换数字。不过,我该怎么做呢?

您不必使用 simple_preprocess() - 它没有做太多,它不是那么可配置或复杂,通常其他 Gensim 算法只需要令牌列表。

因此,选择您自己的标记化 - 在某些情况下,这取决于您的源数据,可以像 .split() 空格一样简单。

如果您想了解 simple_preprocess() 作为模型的作用,您可以在以下位置查看其 Python 来源:

https://github.com/RaRe-Technologies/gensim/blob/351456b4f7d597e5a4522e71acedf785b2128ca1/gensim/utils.py#L288