如何将 CountVectorizer 应用于数据集的列?

How to apply CountVectorizer to a column of a dataset?

我已经能够在单个文本字符串中使用 CountVectorizer,但我有一个长度为 80.000 的数据集。如何将 CountVectorizer 应用于单个列中的所有内容? 我尝试了以下方法:

count_vect = CountVectorizer(lowercase=False)
cv = count_vect.fit_transform(df['Tokenized_Review'])

提前谢谢大家!

我已经很久没有这样做了,但这是我能想到的一种方法。在我之后可能会有更优雅的解决方案。

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()

for i, row in enumerate(df['Tokenized_Reivew']):
    df.loc[i, 'vec_count]' = vectorizer.fit_transform(row)

我还没有测试过,但我认为这会起作用。

谢谢大家的宝贵时间。 结果证明这会成功:

df['Vectorized'] = 'default value'
vectorizer = CountVectorizer()
for i in range(0,len(df):
    vectorizer.fit_transform(df['Tokenized_Review'][i])
    df['Vectorized'][i] = vectorizer.vocabulary_