在计数矢量器中使用哪个轴?
In count vectorizer which axis to use?
我想创建一个文档术语矩阵。在我的例子中,它不像文档 x 个单词,而是句子 x 个单词,因此句子将充当文档。我正在使用 'l2' 规范化 post 文档术语矩阵创建。
术语计数对我在后续步骤中使用 SVD 创建摘要很重要。
我的问题是哪个轴适合应用 'l2' 归一化。通过充分的研究,我了解到:
- Axis=1 : 会给出单词在句子中的重要性(按列归一化)
- Axis=0 : 单词在文档中的重要性(按行归一化)。
即使了解了理论,我也无法决定选择哪个选项,因为选择会极大地影响我的总结结果。所以请指导我一个解决方案以及相同的原因。
L2 归一化是指除以总计数吗?
如果沿axis=0归一化,那么x_{i,j}
的值就是词j
在所有句子i
上的概率(除以全局词数),这取决于句子的长度,因为较长的句子可以一遍又一遍地重复一些单词,并且这个单词出现的概率要高得多,因为它们对全局单词计数有很大贡献。
如果您沿 axis=1 归一化,那么您是在询问句子是否具有相同的单词组成,因为您沿句子的长度进行归一化。
我想创建一个文档术语矩阵。在我的例子中,它不像文档 x 个单词,而是句子 x 个单词,因此句子将充当文档。我正在使用 'l2' 规范化 post 文档术语矩阵创建。
术语计数对我在后续步骤中使用 SVD 创建摘要很重要。
我的问题是哪个轴适合应用 'l2' 归一化。通过充分的研究,我了解到:
- Axis=1 : 会给出单词在句子中的重要性(按列归一化)
- Axis=0 : 单词在文档中的重要性(按行归一化)。
即使了解了理论,我也无法决定选择哪个选项,因为选择会极大地影响我的总结结果。所以请指导我一个解决方案以及相同的原因。
L2 归一化是指除以总计数吗?
如果沿axis=0归一化,那么x_{i,j}
的值就是词j
在所有句子i
上的概率(除以全局词数),这取决于句子的长度,因为较长的句子可以一遍又一遍地重复一些单词,并且这个单词出现的概率要高得多,因为它们对全局单词计数有很大贡献。
如果您沿 axis=1 归一化,那么您是在询问句子是否具有相同的单词组成,因为您沿句子的长度进行归一化。