使用无监督点击日志评估搜索引擎

Evaluating a search engine with unsupervised click logs

我有用户在我的网站上搜索的日志,他们输入了哪些搜索,点击了哪些结果。我想改进搜索算法。但首先我需要一种衡量其质量的方法。

我知道我可以使用 Amazon Turk 等收集数据并让人们制作测试套件。但是我想使用我的网站日志中已有的数据。

谁能告诉我如何做到这一点以及使用哪种算法?

谢谢!

这其实是一个很大的话题,经常使用一种叫做Interleaving的在线评估技术。您只有网络服务器日志,还是还创建自定义搜索日志? Google 分析?

有关以系统为中心的搜索引擎评估的良好介绍性概述以及指向有关此主题的其他工作的指针,请参阅 Mounia Lalmas 的幻灯片:https://www.slideshare.net/mobile/mounialalmas/an-introduction-to-systemoriented-evaluation-in-information-retrieval

我认为出于实际目的,您可以查看 Daniel Tunkelang 的 post: http://twiggle.com/blog/evaluating-good-search-part-ii-measuring-searcher-behavior?utm_content=59131694

您可以查看第一个点击结果的位置(Mean Recipopal Rank),或者如果重建工作量太大,那么简单的点击次数就是一个好的开始。这给了你一个基线。并根据您的域和您的应用程序的设置方式,您可以查看点击后执行操作(预订、购买、联系等)的频率(转化率)。如果您的网站有一些流量,您可以进行一些 A/B 测试,哪些流量会导致更高的点击率 and/or 转化率。