使用 AI 进行文本提取和文本识别

Text extraction and text recognition with AI

从文本开始,我希望能够识别特定信息。

示例:

输入文本:“发票号为 18”、“发票号:75”、“发票号:84”

确定的发票编号:“18”、“75”、“84”

具体问题是我有很多文档包含大量此类信息,我想使用一种算法来识别和提取各种类型的字段。

我以为理论上我会使用某种框架/算法,输入我所有的文档并通过批准或不批准结果来训练算法,但我不知道从哪里开始。

我研究了非结构化文本的深度学习、机器学习、斯坦福 NER、作为一般概念的命名实体识别等。

对于从何处着手实施此类解决方案的一些指导,我将不胜感激。

谢谢

具体取决于您的用例,我推荐的主要架构是 AVEQA

NER 基本上是为了在文本中没有明确实体类型的情况下识别某个实体(例如,国家/地区)的重复(即“在南非去年夏天比往年更冷”)。这不是一个坏方法,但由于您在文本中有明确的实体,您可以利用它。

AVEQA 基本上就是为这个用例而设计的。您问了一个特定的问题,可能是:发票号是多少?然后模型从输入文本中提取答案。它是从文本中训练出来的,答案是文本本身,你只需给算法答案的开始和结束索引位置。

从句子中提取发票编号的整个示例:

  • 上下文(输入文本):“发票号为 18。”
  • 问题:“发票编号是多少?”
  • 答案起始索引:22
  • 答案结束索引:23

它还有一个名为 no-answer 的模块,以避免输入文本中的误报,例如在文本中没有发票编号的地方询问发票编号。