如何识别作为光学字符识别 (OCR) 输出的文本中的实体？

Question

我正在尝试对文本数据进行多重class class化。我面临的问题是我有非结构化的文本数据。我将用一个例子来解释这个问题。例如考虑这张图片：

我想提取并class化图像中给出的文本信息。问题是当我提取信息时，OCR 引擎会给出如下输出：

18
EURO 46
KEEP AWAY
FROM FIRE
MADE IN CHINA
2226249917581
7412501
DOROTHY
PERKINS

现在这里的目标 class 是：

18 -> size
EURO 46 -> price
KEEP AWAY FROM FIRE -> usage_instructions
MADE IN CHINA -> manufacturing_location
2226249917581 -> product_id
7412501 -> style_id
DOROTHY PERKINS -> brand_name

我面临的问题是输入文本不可分离，这意味着 "multiple lines can belong to same class" 并且可能存在 "single line can have multiple classes".

所以我不知道如何在将它传递给 class化模型之前 split/merge 行。
有什么方法可以使用 NLP 我可以根据目标拆分段落class。换句话说，给定的输入段落根据目标标签将其拆分。

Answer 1

如果只考虑文本，这就是命名实体识别 (NER) 任务。

你能做的是train a Spacy model to NER for your particular problem。

这是您需要执行的操作：

首先收集训练文本数据列表
用相应的实体类型标记该数据
将数据拆分为训练集和测试集
使用训练集使用 Spacy NER 训练模型
使用测试集对模型进行评分
...
盈利！

见Spacy documentation on training specific NER models

祝你好运！

如何识别作为光学字符识别 (OCR) 输出的文本中的实体？

How to recognize entities in text that is the output of optical character recognition (OCR)?

nlp

named-entity-recognition

named-entity-extraction

text-classification

recurrent-neural-network