Python 相当于 wordpress sanitize_text

Python equivalent to wordpress sanitize_text

我需要 Python 相当于 wordpress sanitize_text

标题:

'mygubbi raises  mn seed funding from bigbasket co founder others'

wordpress 给出

"mygubbi-raises-2-5-mn-seed-funding-bigbasket-co-founder-others"

Python slugify 给出

"mygubbi-raises-2-5-mn-seed-funding-from-bigbasket-co-founder-others"

我用过 python-slugify Python 库。

我应该只删除 from、in 和 to 之类的词吗?我在哪里可以找到这些停用词?

有一个名为 nltk 的 python 模块。这为您提供了完全做到这一点的可能性。

http://www.bogotobogo.com/python/NLTK/tokenization_tagging_NLTK.php

只需在本网站上稍微向下滚动即可找到标题 "Removing Stop Words"。有一些示例说明如何使用此模块执行此操作。

python-slugify 库有一个 stopwords 参数,可以与 nltk 一起使用,如下所示:

from slugify import slugify
from nltk.corpus import stopwords

text = 'mygubbi raises  mn seed funding from bigbasket co founder others'
print slugify(text, stopwords=stopwords.words('english'))

这将打印:

mygubbi-raises-25-mn-seed-funding-bigbasket-co-founder-others

安装 nltk 后,您可以安装其他语料库,其中之一是 stopwords。为此 运行 他们内置的下载实用程序如下:

import nltk

nltk.download()

Select Corpora,向下滚动到 stopwords,然后单击 Download 按钮。