实践中的信息检索反馈

information retrieval feedback in practical

从Coursera上的课程"Text Retrieval and Search Engines"我学到了一些信息检索系统的反馈算法,比如Rocchio。但我仍然无法理解反馈在实际中是如何使用的。

为什么所有反馈算法都更新查询向量而不是直接更新文档排名?

文档点击反馈是否存储在帖子列表中?

谢谢

But I still can't understand how feedback is used in practical.

既然你已经研究了 Rocchio 反馈,我将尝试参考这种特殊方法进行解释,尽管这也适用于任何其他反馈方法,例如relevance modeling.

Rocchio 算法首先修改当前的查询表示(通过添加新的术语并对初始查询术语重新加权)。然后它执行第 2 遍检索并获得新的排名列表。

Why all feedback algo update the query vector instead of updating the document rank directly?

这是因为如果初始查询表示不够好,初始排名列表不会有很高的召回率。这意味着即使对结果进行重新排序也不会很有用(当然,除非您正在执行面向高精度的任务并且您关心的只是 P@10)。查询中的其他术语通常会对在前 1000 名中检索更多相关文档产生重大影响。

Are the document click through feedback stored in Postings list?

不,帖子列表可能还包含特定术语(列表的头部)的每个文档统计信息,例如词条位置等。文档是否被点击的信息是全局信息,不属于特定词条。 此外,用户点击不用于修改当前查询的排名。相反,它们可以用于构建感兴趣的用户配置文件。