Python 相当于 wordpress sanitize_text
Python equivalent to wordpress sanitize_text
我需要 Python 相当于 wordpress sanitize_text
标题:
'mygubbi raises mn seed funding from bigbasket co founder others'
wordpress 给出
"mygubbi-raises-2-5-mn-seed-funding-bigbasket-co-founder-others"
Python slugify 给出
"mygubbi-raises-2-5-mn-seed-funding-from-bigbasket-co-founder-others"
我用过 python-slugify Python 库。
我应该只删除 from、in 和 to 之类的词吗?我在哪里可以找到这些停用词?
有一个名为 nltk 的 python 模块。这为您提供了完全做到这一点的可能性。
http://www.bogotobogo.com/python/NLTK/tokenization_tagging_NLTK.php
只需在本网站上稍微向下滚动即可找到标题 "Removing Stop Words"。有一些示例说明如何使用此模块执行此操作。
python-slugify 库有一个 stopwords
参数,可以与 nltk
一起使用,如下所示:
from slugify import slugify
from nltk.corpus import stopwords
text = 'mygubbi raises mn seed funding from bigbasket co founder others'
print slugify(text, stopwords=stopwords.words('english'))
这将打印:
mygubbi-raises-25-mn-seed-funding-bigbasket-co-founder-others
安装 nltk
后,您可以安装其他语料库,其中之一是 stopwords
。为此 运行 他们内置的下载实用程序如下:
import nltk
nltk.download()
Select Corpora
,向下滚动到 stopwords
,然后单击 Download
按钮。
我需要 Python 相当于 wordpress sanitize_text
标题:
'mygubbi raises mn seed funding from bigbasket co founder others'
wordpress 给出
"mygubbi-raises-2-5-mn-seed-funding-bigbasket-co-founder-others"
Python slugify 给出
"mygubbi-raises-2-5-mn-seed-funding-from-bigbasket-co-founder-others"
我用过 python-slugify Python 库。
我应该只删除 from、in 和 to 之类的词吗?我在哪里可以找到这些停用词?
有一个名为 nltk 的 python 模块。这为您提供了完全做到这一点的可能性。
http://www.bogotobogo.com/python/NLTK/tokenization_tagging_NLTK.php
只需在本网站上稍微向下滚动即可找到标题 "Removing Stop Words"。有一些示例说明如何使用此模块执行此操作。
python-slugify 库有一个 stopwords
参数,可以与 nltk
一起使用,如下所示:
from slugify import slugify
from nltk.corpus import stopwords
text = 'mygubbi raises mn seed funding from bigbasket co founder others'
print slugify(text, stopwords=stopwords.words('english'))
这将打印:
mygubbi-raises-25-mn-seed-funding-bigbasket-co-founder-others
安装 nltk
后,您可以安装其他语料库,其中之一是 stopwords
。为此 运行 他们内置的下载实用程序如下:
import nltk
nltk.download()
Select Corpora
,向下滚动到 stopwords
,然后单击 Download
按钮。