Amazon Textract - 如何定义我的键值对

Amazon Textract - How to define my key-value pairs

我试过 textract,我可以看到它提取了一些有趣的键值对。

我有一个图像数据集,每个图像数据集都用一组特定于域的键值对进行注释,这些键值对与 textract 发现的不同。

有没有办法让 textract 寻找我的键值对?迁移学习的种类,或者工具的具体配置?

没有。没有办法改变 textract 如何预测文本或识别它们之间的关系。您可以继续添加您的图像和表格,textract 将(理论上)在它们上进行自我训练,但我怀疑它会有多大帮助。您可以尝试获取检测到的原始文本并提出您自己的脚本以将它们放入关系中。请注意,textract 将 return 检测到原始文本,以便在 image/pdf 上找到它们。因此,很容易想出自己的逻辑来根据需要映射它们。