在计数矢量器中使用哪个轴?

In count vectorizer which axis to use?

我想创建一个文档术语矩阵。在我的例子中,它不像文档 x 个单词,而是句子 x 个单词,因此句子将充当文档。我正在使用 'l2' 规范化 post 文档术语矩阵创建。

术语计数对我在后续步骤中使用 SVD 创建摘要很重要。

我的问题是哪个轴适合应用 'l2' 归一化。通过充分的研究,我了解到:

即使了解了理论,我也无法决定选择哪个选项,因为选择会极大地影响我的总结结果。所以请指导我一个解决方案以及相同的原因。

L2 归一化是指除以总计数吗? 如果沿axis=0归一化,那么x_{i,j}的值就是词j在所有句子i上的概率(除以全局词数),这取决于句子的长度,因为较长的句子可以一遍又一遍地重复一些单词,并且这个单词出现的概率要高得多,因为它们对全局单词计数有很大贡献。 如果您沿 axis=1 归一化,那么您是在询问句子是否具有相同的单词组成,因为您沿句子的长度进行归一化。