从非结构化字符串中提取键值对的最佳方法?

Best way to extract Key-Value Pairs from unstructured String?

最多避免特定模式的硬编码规则。

我目前正在从事与 AWS Textract 类似的项目,link here。我已经成功地从文件中提取数据,但是以一种非结构化的方式。现在,我正试图以最佳方式找出如何从那堆信息中获取现有的键值对。

例如我们有这样的文本:

In this document we will find different key and values like this id : 1 and that country : France with no specific punctuation and probably talking about how good is my health...

提取会是这样的:

id : 1
country : France
health : good

我真正知道的是亚马逊使用 "confidence" 变量从那种场景中提取信息,我猜这涉及到一些机器学习算法。就我而言,我没有那么大的数据库可以学习。

我很确定有一个更简单且不那么灵活的解决方案。

我相信 spaCy 库可能是满足您需求的正确工具。查看 GitHub 上的描述以弄清楚。

它可以使用 spacy-nlp 包暴露给 Node JS。