Brin/Page 1998 年的论文中的这一行是什么意思?
What does this line mean in Brin/Page's 1998 paper?
我不确定这是否属于 SO,但我不知道其他 SE 站点更合适。
在 Brin 和 Page 的论文 "The Anatomy of a Large-Scale Hypertextual Web Search Engine" 中,他们将 PageRank 算法中的变量 d 描述为随机冲浪者请求新的随机页面的概率。在下一行,他们声明:
One important variation is to only add the damping factor d to a
single page, or a group of pages. This allows for personalization and
can make it nearly impossible to deliberately mislead the system in
order to get a higher ranking.
这是什么意思?他们为什么只将阻尼系数添加到单个页面?
这是否意味着随机冲浪者会一直跟踪链接,直到他们到达特定页面?我认为这没有意义,因为随机冲浪者可能会陷入循环而永远无法到达该特定页面。
PageRank kind of explains the overall concept of the damping factor, but this forum post 上的维基百科文章解释得更好。
最终,任何网络冲浪者最终都会达到 he/she 感到无聊并做其他事情的地步。理论(假设我正确理解维基百科文章)是,在查看给定页面时,用户有 85% 的机会点击指向另一个页面的链接之一。因此,连续看两页的几率是85%,看三页的几率是72.25%,看四页的几率是61.4%,等等
因此,如果您的页面 A 链接到页面 B,页面 B 链接到页面 C:
A -> B -> C
那么页面 A 的流行有 85% 的机会导致页面 B 流行,但只有 72.25% 的机会使页面 C 流行,因为用户有 15% 的机会随机访问其他页面网站,而不是在每个决策点。
如果没有这种下降,我认为世界上的每个网站最终都会以无限的页面排名结束,因为页面排名会像潮汐一样通过每个页面传播到其他每个页面。通过在每一步抑制页面排名强度的进展,您可以确保从高排名网站链接的网站获得排名提升,但不会通过一百跳访问的网站。
您引用的部分在他们的 follow-on paper 中有更多解释,他们在其中解释说他们在计算网页排名时通常使用恒定的阻尼系数,并假设有 15% ( 1 - .85) 跳转到世界上 任意页面 的概率,所有可能的页面均等地获得这些跳转,但您可以改为使用一组固定的目标页面(甚至单个网页)接收所有这些随机跳转。当您这样做时,您最终会根据与特定页面或页面组的接近程度计算出非常不同的页面排名。
例如,如果用户将特定页面设置为 his/her 浏览器的起始页,您可能会假设用户在感到无聊时会单击主页按钮并返回到该页面。因此,与该页面紧密链接的页面对于该用户将具有更高的个人页面排名。您可以通过添加用户的书签、他们经常访问的页面等内容来创建更好的个性化排名。并且由于基于这些有限集合 "restart pages" 的排名以这种方式进行了个性化,因此它们不能轻易被操纵商业利益,因为没有人可能会从碰巧在您的书签(或主页或其他)中的五个特定页面之一购买链接。
我不确定这是否属于 SO,但我不知道其他 SE 站点更合适。
在 Brin 和 Page 的论文 "The Anatomy of a Large-Scale Hypertextual Web Search Engine" 中,他们将 PageRank 算法中的变量 d 描述为随机冲浪者请求新的随机页面的概率。在下一行,他们声明:
One important variation is to only add the damping factor d to a single page, or a group of pages. This allows for personalization and can make it nearly impossible to deliberately mislead the system in order to get a higher ranking.
这是什么意思?他们为什么只将阻尼系数添加到单个页面?
这是否意味着随机冲浪者会一直跟踪链接,直到他们到达特定页面?我认为这没有意义,因为随机冲浪者可能会陷入循环而永远无法到达该特定页面。
PageRank kind of explains the overall concept of the damping factor, but this forum post 上的维基百科文章解释得更好。
最终,任何网络冲浪者最终都会达到 he/she 感到无聊并做其他事情的地步。理论(假设我正确理解维基百科文章)是,在查看给定页面时,用户有 85% 的机会点击指向另一个页面的链接之一。因此,连续看两页的几率是85%,看三页的几率是72.25%,看四页的几率是61.4%,等等
因此,如果您的页面 A 链接到页面 B,页面 B 链接到页面 C:
A -> B -> C
那么页面 A 的流行有 85% 的机会导致页面 B 流行,但只有 72.25% 的机会使页面 C 流行,因为用户有 15% 的机会随机访问其他页面网站,而不是在每个决策点。
如果没有这种下降,我认为世界上的每个网站最终都会以无限的页面排名结束,因为页面排名会像潮汐一样通过每个页面传播到其他每个页面。通过在每一步抑制页面排名强度的进展,您可以确保从高排名网站链接的网站获得排名提升,但不会通过一百跳访问的网站。
您引用的部分在他们的 follow-on paper 中有更多解释,他们在其中解释说他们在计算网页排名时通常使用恒定的阻尼系数,并假设有 15% ( 1 - .85) 跳转到世界上 任意页面 的概率,所有可能的页面均等地获得这些跳转,但您可以改为使用一组固定的目标页面(甚至单个网页)接收所有这些随机跳转。当您这样做时,您最终会根据与特定页面或页面组的接近程度计算出非常不同的页面排名。
例如,如果用户将特定页面设置为 his/her 浏览器的起始页,您可能会假设用户在感到无聊时会单击主页按钮并返回到该页面。因此,与该页面紧密链接的页面对于该用户将具有更高的个人页面排名。您可以通过添加用户的书签、他们经常访问的页面等内容来创建更好的个性化排名。并且由于基于这些有限集合 "restart pages" 的排名以这种方式进行了个性化,因此它们不能轻易被操纵商业利益,因为没有人可能会从碰巧在您的书签(或主页或其他)中的五个特定页面之一购买链接。