如何使用 scikit learn 对文本数据进行二值化?
How to binarize textual data with scikit learn?
我正在使用 scikit 的 tfidf 向量化一些文本数据。通过 documentation,我读到您可以将 idf 和归一化设置为 False 以获得 0/1 输出(二进制特征向量?)。所以我尝试了以下方法:
tfidf_vect= TfidfVectorizer(use_idf=False,
smooth_idf=True,
sublinear_tf=False,
ngram_range=(2,2),
norm=False)
有了这个特征向量将是二进制的?。另一方面,在 documentation 中还有另一个模块可以执行此任务,即预处理。知道如何解决这个问题吗?
TfidfVectorizer
取一个名为 binary
:
的参数
tfidf_vect= TfidfVectorizer(use_idf=False,binary=True, norm=False, ngram_range=(2, 2))
这将使特征二值化
我正在使用 scikit 的 tfidf 向量化一些文本数据。通过 documentation,我读到您可以将 idf 和归一化设置为 False 以获得 0/1 输出(二进制特征向量?)。所以我尝试了以下方法:
tfidf_vect= TfidfVectorizer(use_idf=False,
smooth_idf=True,
sublinear_tf=False,
ngram_range=(2,2),
norm=False)
有了这个特征向量将是二进制的?。另一方面,在 documentation 中还有另一个模块可以执行此任务,即预处理。知道如何解决这个问题吗?
TfidfVectorizer
取一个名为 binary
:
tfidf_vect= TfidfVectorizer(use_idf=False,binary=True, norm=False, ngram_range=(2, 2))
这将使特征二值化