如何将 CountVectorizer 应用于数据集的列?
How to apply CountVectorizer to a column of a dataset?
我已经能够在单个文本字符串中使用 CountVectorizer,但我有一个长度为 80.000 的数据集。如何将 CountVectorizer 应用于单个列中的所有内容?
我尝试了以下方法:
count_vect = CountVectorizer(lowercase=False)
cv = count_vect.fit_transform(df['Tokenized_Review'])
提前谢谢大家!
我已经很久没有这样做了,但这是我能想到的一种方法。在我之后可能会有更优雅的解决方案。
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
for i, row in enumerate(df['Tokenized_Reivew']):
df.loc[i, 'vec_count]' = vectorizer.fit_transform(row)
我还没有测试过,但我认为这会起作用。
谢谢大家的宝贵时间。
结果证明这会成功:
df['Vectorized'] = 'default value'
vectorizer = CountVectorizer()
for i in range(0,len(df):
vectorizer.fit_transform(df['Tokenized_Review'][i])
df['Vectorized'][i] = vectorizer.vocabulary_
我已经能够在单个文本字符串中使用 CountVectorizer,但我有一个长度为 80.000 的数据集。如何将 CountVectorizer 应用于单个列中的所有内容? 我尝试了以下方法:
count_vect = CountVectorizer(lowercase=False)
cv = count_vect.fit_transform(df['Tokenized_Review'])
提前谢谢大家!
我已经很久没有这样做了,但这是我能想到的一种方法。在我之后可能会有更优雅的解决方案。
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
for i, row in enumerate(df['Tokenized_Reivew']):
df.loc[i, 'vec_count]' = vectorizer.fit_transform(row)
我还没有测试过,但我认为这会起作用。
谢谢大家的宝贵时间。 结果证明这会成功:
df['Vectorized'] = 'default value'
vectorizer = CountVectorizer()
for i in range(0,len(df):
vectorizer.fit_transform(df['Tokenized_Review'][i])
df['Vectorized'][i] = vectorizer.vocabulary_