寻找两篇学术论文之间的最短引用路径?

Finding the shortest citation path between two academic papers?

我想了解自然语言处理思想的发展,我认为理解它的一种方法是查看主要进步之间的引用距离,例如在 word2vec 和变形金刚之间

如果引用距离相对于发表日期较长,我们可以推测这些想法是独立达成的。否则,我们可以看到主要想法是如何取得进展的。

有人做过吗?或者如果没有,什么是好的方法?

我非常喜欢你的问题。我认为这将是一种非常有趣的方式来表示随着时间的推移迭代改进的想法。

值得一提的是,在审阅文献时,我们通常将相关论文可视化为图表。 ConnectedPapers (https://www.connectedpapers.com/) and ResearchRabbit (https://www.researchrabbit.ai/) 是用于此类分析的两种流行工具。如果您以前没有使用过它们,我真的建议您尝试一下。特别是 ResearchRabbit 经常设法找到您所指的有趣连接类型。

尽管如此,这些工具并不旨在提供历史故事情节,这实际上是一项非常有趣的尝试。我不知道有什么工具可以完全满足您的需求。那么您将如何开始呢?需要注意的一件事是,您需要一些基础 'total' 论文集来为您的最短路径创建图表。你有这样的一套卷子吗?如果没有,那将是您的首要任务。您可以考虑下载一些可能包含所有潜在相关论文的论文集,然后开始通过 references/citations 连接它们。手动执行此操作需要相当长的时间,但如果您不想牺牲准确性,这可能是值得的。自动化滚雪球(此过程的名称)很困难,但这段代码可能会有所帮助:https://github.com/JoaoFelipe/Snowballing。一旦你有了距离,计算两篇论文之间的最短路线应该是非常可行的。

最后要说的是,这个问题有一个更一般的版本,它通常可以提供一种有趣的研究方法。如果你有一组相关的论文和它们的 citation/reference 距离,你还可以考虑找到最少数量的路线的问题,这样你就可以覆盖所有论文;本质上是车辆路径问题的变体。然后,这将对应于描述您正在考虑的主题的历史的最简洁的故事情节集。很酷!