日期的命名实体提取

Named Entity Extraction of dates

总的来说,我对 NER、提取和编程完全陌生。我正在尝试找出一种方法来提取某些文档的截止日期和开始日期。有没有办法做到这一点?我可以开始的地方?我一直在四处寻找,但我 运行 遇到的问题是一样的。可以提取日期,但不能提取日期是否到期或 post。如果只有 1 个日期,是 post 还是截止日期。像这样的东西。任何帮助将不胜感激。

示例:

"Essay on Medieval Asia was due on September 3rd."

"Your last assignment that was given on April 6th was supposed to be submitted in 10 days."

"The bid is due no later than a month from the date it was posted(today)."

用自由文本表达日期的可能性是巨大的。有几种解决方案:

  • 你可以自带一组正则表达式,自己试着解析一下。

  • 另一个选择是训练像 CRF 这样的监督序列分类器,如果你有一个带有日期注释的文档。

  • 第三个选项,可以有快速的结果是使用这个来自 Facebook 研究的框架 https://github.com/facebookincubator/duckling,它会识别表达式是日期或时间表达式,它甚至会规范化它们到一个唯一的日期。

  • 还有一个选项是 ct-parse,它基于 Duckling,但是是一个纯粹的 python 包,用于从德语和英语的自然语言中解析时间表达式。