对于 scikit-learn 的文本分类,我是否必须同时使用 Countvectorizer 和 TFIDF?
For text classification with scikit-learn, do I have to use both, Countvectorizer and TFIDF?
查看 scikit-learn 文档代码,建议先实现 Countvectorizer,然后在 TFIDF 之上。我可以只使用 TFIDF 吗?
http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
enter image description here
如果我只使用 TFIDF 并将我的预处理文本作为输入,它不会采用数据类型(我尝试作为列表和 np 数组)。有人可以帮忙吗?
- 在他们展示的示例中,他们在
CountVectorizer
之上使用了 TfidfTransformer
。直接使用 TfidfVectorizer
产生相同的结果。因此,您可以选择所需的权重方案。
- 我不太明白你的问题。 Scikit 向量器可以有不同类型的输入,从 list/arrays 字符串到文件描述符等等。为了构造 ngram,它使用参数
tokenizer=
和 preprocessor=
。你的问题是什么?
CV 和 TFIDF 的工作方式不同,我只能使用 CV,但没有 CV 就无法使用 TFIDF,所以我只是想知道。如果它产生相同的结果,那应该没问题。谢谢。
查看 scikit-learn 文档代码,建议先实现 Countvectorizer,然后在 TFIDF 之上。我可以只使用 TFIDF 吗? http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
enter image description here
如果我只使用 TFIDF 并将我的预处理文本作为输入,它不会采用数据类型(我尝试作为列表和 np 数组)。有人可以帮忙吗?
- 在他们展示的示例中,他们在
CountVectorizer
之上使用了TfidfTransformer
。直接使用TfidfVectorizer
产生相同的结果。因此,您可以选择所需的权重方案。 - 我不太明白你的问题。 Scikit 向量器可以有不同类型的输入,从 list/arrays 字符串到文件描述符等等。为了构造 ngram,它使用参数
tokenizer=
和preprocessor=
。你的问题是什么?
CV 和 TFIDF 的工作方式不同,我只能使用 CV,但没有 CV 就无法使用 TFIDF,所以我只是想知道。如果它产生相同的结果,那应该没问题。谢谢。