Python Snowball Stemmer + RAKE:生成“u”
Python Snowball Stemmer + RAKE: generates 'u's
我正在尝试从包含文本的文本文件中获取关键字,并且我首先对文本进行词干提取。下面的代码有效,但由于某种原因,它会在关键字列表前面生成字母 'u'。例如。这是我得到的:
[(u'keyword1', 5), (u'keyword2', 4)]
而且我不确定 'u' 来自哪里。
这是代码(导入包后):
stemmer = SnowballStemmer("english")
rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4)
s = open("test.txt", "r").read()
s = re.sub('[^a-zA-Z0-9-_*.]', ' ', s) # Remove special characters that might cause problems with stemming
words = s.split()
stemmed = [stemmer.stem(word) for word in words]
stemmed = ' '.join(stemmed)
keywords = rake_object.run(stemmed) # Perform RAKE on stemmed text
print(keywords)
表示是Unicode字符串,stemmer returns这种类型的字符串。它是从 2.0 开始的语法,在 Pythons 2.x 中。要获取更多信息,请阅读 documentation。不用担心。
我正在尝试从包含文本的文本文件中获取关键字,并且我首先对文本进行词干提取。下面的代码有效,但由于某种原因,它会在关键字列表前面生成字母 'u'。例如。这是我得到的:
[(u'keyword1', 5), (u'keyword2', 4)]
而且我不确定 'u' 来自哪里。 这是代码(导入包后):
stemmer = SnowballStemmer("english")
rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4)
s = open("test.txt", "r").read()
s = re.sub('[^a-zA-Z0-9-_*.]', ' ', s) # Remove special characters that might cause problems with stemming
words = s.split()
stemmed = [stemmer.stem(word) for word in words]
stemmed = ' '.join(stemmed)
keywords = rake_object.run(stemmed) # Perform RAKE on stemmed text
print(keywords)
表示是Unicode字符串,stemmer returns这种类型的字符串。它是从 2.0 开始的语法,在 Pythons 2.x 中。要获取更多信息,请阅读 documentation。不用担心。