通过机器学习从非结构化文本文件中检索信息

Question

所以我有一堆 .txt 文件，它们是 PDF 的提取字符串，如下所示：

---
Name:
ID Number:
--
CONFIDENTIAL
.
Date:
Description:
Foo Bar
ABC456789
THIS PAGE INTENTIONALLY LEFT BLANK.
05/04/17
Lorem ipsum dolor sit amet

在所有这些噪音中，我想提取几个目标字段并忽略其余信息：

Name: Foo Bar
ID Number: ABC456789
Date: 05/04/17
Description: Lorem ipsum dolor sit amet

所以我处理的大部分文档都具有相同的格式，因此到目前为止，可以记下目标值出现的行号并保存它们。当然，这是一个粗略的解决方案，因为有多种格式将以不同的方式解析为 .txt。似乎可以通过机器学习提取信息，因为我已经手工完成了很多这样的工作，因此有足够的训练数据。任何出现的新文件格式，我也可以手动训练。对于给定的 ML 算法，您将如何监督它并为其提供这种模式？

我的一些想法你可以挑战：

正则表达式也是一个可行的选择，但它并不适用于所有情况，因为 ID 号不遵循相同的格式；它有时可以是 1234567 以及 ABC456789。也许可以训练 ML 以根据其训练的目的提出自己的正则表达式序列。我认为这可能是相关的，但我不确定如何：http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
我可以使用 Tabula 检测 PDF 中的 table，并在执行任何 ML 之前用文本文件中的 CSV 替换非结构化的 table。
CNN 或 CRF 适用于此类数据。

我知道这是一个自以为是的问题（而且这不可能一蹴而就）但我将不胜感激任何提示！

Answer 1

如果原始 PDF 文件采用 table 格式，我建议使用 table 提取，因为这将是根据您提供的信息确保您获得正确字段的最可靠方法以上分享。

对于这样一个简单的例子，CNN 或 CRF 对我来说似乎有点过分了。一个简单的决策树或任何现成的监督 ML 方法可能就足够了（同样，基于您在上面分享的示例）。

通过机器学习从非结构化文本文件中检索信息

Information retrieval from unstructured text files by machine learning

regex

information-retrieval

machine-learning