为什么邻接矩阵的特征值实际上是Textrank中的句子分数

Why Eigen values of adajcency matrix are actually the sentence scores in Textrank

这是 TextRank 的路径:

  1. 要汇总的文档,表示为 tf-idf 矩阵
  2. (tf-idf matrix)*(tf-idf matrix).Transpose = 一些图的邻接矩阵,其顶点是 实际上是上面文件的句子
  3. 页面排名应用于此图 -> returns 每个句子的 PR 值

现在,这个 PR 值实际上是那个邻接矩阵的特征值
这背后的物理意义或直觉是什么?

为什么特征值实际上是秩?

这是 link 的网页排名: http://www.cs.princeton.edu/~chazelle/courses/BIB/pagerank.htm

这是上一页的摘录:
PageRank 或 PR(A) 可以使用简单的迭代算法计算,并且对应于网络规范化 link 矩阵的主要特征向量。

Link 用于 TextRank: https://joshbohde.com/blog/document-summarization

首先,你的问题有点误会。特征值是 而不是 分数。相反,固定特征向量的 个条目 是分数。

Textrank 适用于 graphical approach to words。它有许多变体,但它们具有以下共同步骤:

  1. 创建一个加权图,其中顶点是实体(单词或句子),权重是实体之间的转移概率。

  2. 找到与图关联的stochastic matrix,并根据其平稳分布对每个实体进行评分。

在这种情况下,图形构建如下。首先,构建一个矩阵,其中行是句子,列是单词。矩阵的条目由 TF-IDF 指定。为了找到句子之间的相似性,将归一化矩阵乘以它的变换。这是因为,对于每两个句子和一个单词,基于每个句子中单词的 TF-IDF 的乘积,句子之间存在相似性,我们需要对所有单词进行求和。如果您稍微考虑一下,对乘积求和就是矩阵乘以转置所做的。

所以现在我们有一个随机矩阵 P 可以解释为从句子 i 到句子 j。分数是平稳分布x,也就是说

P x = x = 1 x.

这意味着x是与特征值1相关联的特征向量。由Perron-Frobenius Theorem,这个特征向量存在于一些温和的条件下,1是最大的特征值.最后一部分基本上是 Pagerank。