在计数矢量器中使用哪个轴？

In count vectorizer which axis to use?

我想创建一个文档术语矩阵。在我的例子中，它不像文档 x 个单词，而是句子 x 个单词，因此句子将充当文档。我正在使用 'l2' 规范化 post 文档术语矩阵创建。

术语计数对我在后续步骤中使用 SVD 创建摘要很重要。

我的问题是哪个轴适合应用 'l2' 归一化。通过充分的研究，我了解到：

Axis=1 : 会给出单词在句子中的重要性（按列归一化）
Axis=0 : 单词在文档中的重要性（按行归一化）。

即使了解了理论，我也无法决定选择哪个选项，因为选择会极大地影响我的总结结果。所以请指导我一个解决方案以及相同的原因。

L2 归一化是指除以总计数吗？如果沿axis=0归一化，那么x_{i,j}的值就是词j在所有句子i上的概率（除以全局词数），这取决于句子的长度，因为较长的句子可以一遍又一遍地重复一些单词，并且这个单词出现的概率要高得多，因为它们对全局单词计数有很大贡献。如果您沿 axis=1 归一化，那么您是在询问句子是否具有相同的单词组成，因为您沿句子的长度进行归一化。

在计数矢量器中使用哪个轴？

In count vectorizer which axis to use?

python

normalization

lsa

countvectorizer