从 Pandas 数据帧创建词频矩阵的有效方法
Efficient way to creating a Term Frequency Matrix from a Pandas Dataframe
给定一个包含 2 列的 pandas 数据框 - 第 1 列是用户名,第 2 列是链接到用户的内容。
如何创建如下所示的词频矩阵?
我的尝试:
所以这似乎可行,但我希望它以最终矩阵形式显示列名和行名。
如果再次将其转换为数据帧会怎么样?
pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())
给定一个包含 2 列的 pandas 数据框 - 第 1 列是用户名,第 2 列是链接到用户的内容。
如何创建如下所示的词频矩阵?
我的尝试:
所以这似乎可行,但我希望它以最终矩阵形式显示列名和行名。
如果再次将其转换为数据帧会怎么样?
pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())