从 Pandas 数据帧创建词频矩阵的有效方法

Efficient way to creating a Term Frequency Matrix from a Pandas Dataframe

给定一个包含 2 列的 pandas 数据框 - 第 1 列是用户名,第 2 列是链接到用户的内容。

如何创建如下所示的词频矩阵?

我的尝试:

所以这似乎可行,但我希望它以最终矩阵形式显示列名和行名。

如果再次将其转换为数据帧会怎么样?

pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())