计算问答对之间的相关性得分的方法是什么?

What are the means to compute relevance score between question-answer pairs?

在信息​​检索或问答系统中,我们使用TD-IDF或BM25计算问题对的相似度分数作为深度学习的基线或粗排序。

在社区问答中,我们已经有了问答对来收集一些统计信息。如果没有深度学习,我们是否可以发明一种像 BM25 这样的算法来计算问答对的相关性得分?

有哪些方法可以做到?

Without deep learning, could we invent an algorithm like BM25 to compute the relevance score of question-answer pair?

是的,有很多方法可以做到。为了让你的问题更有针对性,让我们回答一下 "Which are the possible ways to compute the relevance of question-answer pair without using question answering?"

一些例子和解释:

  • [你说的]TF-IDF其实是一种特征提取技术。有了它,您可以从每个文档的上下文中检索哪些词是 present/important - 有了这个,您可以比较两个措辞相似的词(这就是 BM25 所做的)。

  • 另一种技巧是使用PageRank,这是Google使用的算法。您实际上可以尝试复制它,因为它并不太复杂。

  • 另一种方法是使用图表来完成。我在硕士研究中做到了,你可以阅读我的论文 here.

除此之外,我建议您查看这篇论文以了解其他问答示例(如果您理解这些概念,您可以轻松地进行问答匹配):https://www.sciencedirect.com/science/article/pii/S0020025511003860 and https://www.sciencedirect.com/science/article/pii/S1319157815000890?via%3Dihub.

此外,请继续查看 ACL State of the Art Question Answering Techniques 以获得最新的结果和技术。