从非结构化字符串中提取键值对的最佳方法?
Best way to extract Key-Value Pairs from unstructured String?
最多避免特定模式的硬编码规则。
我目前正在从事与 AWS Textract 类似的项目,link here。我已经成功地从文件中提取数据,但是以一种非结构化的方式。现在,我正试图以最佳方式找出如何从那堆信息中获取现有的键值对。
例如我们有这样的文本:
In this document we will find different key and values like this id : 1 and that country : France with no specific punctuation and probably talking about how good is my health...
提取会是这样的:
id : 1
country : France
health : good
我真正知道的是亚马逊使用 "confidence" 变量从那种场景中提取信息,我猜这涉及到一些机器学习算法。就我而言,我没有那么大的数据库可以学习。
我很确定有一个更简单且不那么灵活的解决方案。
最多避免特定模式的硬编码规则。
我目前正在从事与 AWS Textract 类似的项目,link here。我已经成功地从文件中提取数据,但是以一种非结构化的方式。现在,我正试图以最佳方式找出如何从那堆信息中获取现有的键值对。
例如我们有这样的文本:
In this document we will find different key and values like this id : 1 and that country : France with no specific punctuation and probably talking about how good is my health...
提取会是这样的:
id : 1
country : France
health : good
我真正知道的是亚马逊使用 "confidence" 变量从那种场景中提取信息,我猜这涉及到一些机器学习算法。就我而言,我没有那么大的数据库可以学习。
我很确定有一个更简单且不那么灵活的解决方案。