NLP 挑战:自动删除 bibliography/references?

NLP Challenge: Automatically removing bibliography/references?

我最近遇到了以下问题:在一堆已解析的 PDF 文件上应用主题模型时,不幸的是,我发现引用的内容也对模型有影响。 IE。参考文献中的单词出现在标记化的单词列表中。

有什么已知的"best-practice"可以解决这个问题吗?

我想到了一种搜索策略,其中 python 代码会在最后一次提到 "references" 或 "bibliography" 后自动删除所有内容。如果我从第一个开始,或者在全文中随机提及 "references" 或 "bibliography",解析器可能无法捕获真正的完整内容。

输入的PDF均来自不同的期刊,因此具有不同的页面结构。

检测引用设置开始时需要考虑的几个附加功能

  • 检查 "references" 或 "bibliography" 的提及是否出现在最后几页而不是较早的几页
  • 运行 对单词后一定长度的单词(~50?)进行实体识别,如果这 50 个单词中有大量标记是实体,则表明期刊名称、作者姓名等

正是语法使参考书目条目有别于常规句子。

测试与您要删除的任何(或多个)参考样式一致的模式。

又名日期、未加引号的字符串、字符串、特定格式的页码。

在执行此操作之前,我会花一些时间搜索已经识别参考书目的工具,因为它对于每种风格(MLA 等)都是独一无二的