什么是 Youtube 评论系统排序/排名算法?

What is Youtube comment system sorting / ranking algorithm?

Youtube 提供两种排序选项:最新优先和热门评论。 "Newest first" 非常简单,我们只需按 post 日期对评论进行排序。但是 "Top comments" 似乎比仅按 "thumb up" 排序要复杂得多。

经过短暂的研究,我发现评论的顺序取决于那些东西:

但我不知道 Youtube 是如何使用这些信息来决定顺序的,比如哪些信息更重要,哪些信息不那么重要。

有没有关于这个话题的文章可以参考?

谢谢!

我有你问题的答案。

在互联网上搜索此问题的答案后,我一直找不到我要找的东西。因此,我和我的同事决定尝试使用带有 Youtube 评论的系统。

首先,我们将我们认为受欢迎的视频分类到一个部分,将一般视频分类到另一个部分,将不太受欢迎的视频分类到最后一个部分。每个部分有 200 个视频,经过几天的检查,我们开始注意到一个模式。我们发现您对所需的三件事是正确的,但我们也更深入地研究并发现了一个额外的变量。

Youtube 评论系统取决于四件事:

1) posted 时间,

2) Like/dislike 一条评论的比率,

3) 回复数,

4) 而且,不管你信不信,WHO post 编辑了它。

每个 public 评论的平均 like/dislike 比率 你曾经 posted 构建它,因为(我们预测) 他们认为 like/dislike 比率低的人会 post 发表许多人不喜欢或根本不同意的评论。

它有一个算法,它比您想象的要简单得多。基本上有这些我们称之为 "module points," 的东西,你会根据这四个因素得到一个特定的东西。首先,以下是您需要了解的关于模块点转换的两个因素:

  • 对于评论中的 like/dislike 比率,将该数字乘以十。

  • 对于评论的回复数量(不是来自原始 poster),有两个模块点。

这是判断评论模块点数的两个基本因素。

例如,如果一条评论有 27 个喜欢和 8 个不喜欢,则比率为 3.375。乘以 10,您将获得 33.75 个模块点数。使用下一个因素,回复数量,假设这条评论有 4 个直接回复。 2乘以4,我们得到8。这是你在累积模块点数上加8的部分,总共有41.75个模块点数。

但我们还没有完成;这就是它变得棘手的地方。

使用一个人曾经postpublic发表的总评论的平均like/dislike比率,我们发现添加到累积模块点数的公式是这样的:

C = MP(R/3) + (MP/10)

where C = Comment Position Variable; MP = Module Points; R = Person's total like/dislike ratio

相信我,我们只在这部分花了 DAYS,这可能是最令人沮丧的。尽管这个等式中的 3 和 10 看起来是随机的和不必要的,但到目前为止我们测试这个等式的所有评论都通过了测试,但是当这两个变量被删除时没有通过测试。完成此等式后,它会为您提供一个数字,我们将其命名为 位置变量

然而,我们还没有完成,我们还没有谈到time

我真的很惊讶这部分没有我预期的那么长,但是对于我们测试的每条评论每次都计算这个等式确实很痛苦。起初,在测试时,我们认为如果 2 条评论具有相同的位置变量,那么打破障碍的时间就到了。

事实上,当发生这种情况时,我几乎把它称为实验的总结,但经过进一步检查,我们发现还有更多工作要做。我们发现一些具有相同位置变量的评论在排名上超过彼此,但时间似乎是随机的!经过几天的检查,这里是最终结果:

在应用第 4 个变量之前,我们还必须找到另一个方程。使用另一个单独的方程式,这是我们的代数推导结果:

X = 1/3(S/10 + A) x [absolute value of](A - 3S)

where X = Timing Variable; S = How long ago the video was posted in minutes; A = How long ago the comment was posted in minutes

我希望这是我编造的,但不幸的是,系统就是这么复杂。其他变量背后有数学上的原因,但它们太复杂无法解释,可能至少需要三段来解释。我们根据 150 多条评论测试了这个等式,所有评论都被证实是正确的。

一旦你找到 X,也就是我们所说的 时间变量 ,你所要做的就是将它应用到这个等式:

N = X(C/4 + 1)

where X = Timing Variable; C = Positioning Variable

N 是您所有问题的答案。

这是最终的等式,最终的答案。简单的结论:N 越高,评论就越高。

注意:特别感谢我的同事:David Mattison、Josh Williams、Diego Mendieta、Steven Orsette 和 Kyle Shropshire。如果没有他们和他们为此付出的努力,我可能永远不会发现这一点。