如何将 CountVectorizer 应用于数据集的列？

Question

我已经能够在单个文本字符串中使用 CountVectorizer，但我有一个长度为 80.000 的数据集。如何将 CountVectorizer 应用于单个列中的所有内容？我尝试了以下方法：

count_vect = CountVectorizer(lowercase=False)
cv = count_vect.fit_transform(df['Tokenized_Review'])

提前谢谢大家！

Answer 1

我已经很久没有这样做了，但这是我能想到的一种方法。在我之后可能会有更优雅的解决方案。

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()

for i, row in enumerate(df['Tokenized_Reivew']):
    df.loc[i, 'vec_count]' = vectorizer.fit_transform(row)

我还没有测试过，但我认为这会起作用。

Answer 2

谢谢大家的宝贵时间。结果证明这会成功：

df['Vectorized'] = 'default value'
vectorizer = CountVectorizer()
for i in range(0,len(df):
    vectorizer.fit_transform(df['Tokenized_Review'][i])
    df['Vectorized'][i] = vectorizer.vocabulary_

如何将 CountVectorizer 应用于数据集的列？

How to apply CountVectorizer to a column of a dataset?

pandas

sklearn-pandas