通过机器学习从非结构化文本文件中检索信息

Information retrieval from unstructured text files by machine learning

所以我有一堆 .txt 文件,它们是 PDF 的提取字符串,如下所示:

---
Name:
ID Number:
--
CONFIDENTIAL
.
Date:
Description:
Foo Bar
ABC456789
THIS PAGE INTENTIONALLY LEFT BLANK.
05/04/17
Lorem ipsum dolor sit amet

在所有这些噪音中,我想提取几个目标字段并忽略其余信息:

Name: Foo Bar
ID Number: ABC456789
Date: 05/04/17
Description: Lorem ipsum dolor sit amet

所以我处理的大部分文档都具有相同的格式,因此到目前为止,可以记下目标值出现的行号并保存它们。当然,这是一个粗略的解决方案,因为有多种格式将以不同的方式解析为 .txt。似乎可以通过机器学习提取信息,因为我已经手工完成了很多这样的工作,因此有足够的训练数据。任何出现的新文件格式,我也可以手动训练。对于给定的 ML 算法,您将如何监督它并为其提供这种模式?

我的一些想法你可以挑战:

我知道这是一个自以为是的问题(而且这不可能一蹴而就)但我将不胜感激任何提示!

如果原始 PDF 文件采用 table 格式,我建议使用 table 提取,因为这将是根据您提供的信息确保您获得正确字段的最可靠方法以上分享。

对于这样一个简单的例子,CNN 或 CRF 对我来说似乎有点过分了。一个简单的决策树或任何现成的监督 ML 方法可能就足够了(同样,基于您在上面分享的示例)。