使用google云视觉OCR后,如何解析名片中的姓名、phone号码邮件? Android
How to parse name, phone number email from name card after using google cloud vision OCR? Android
使用google云视API(OCR)终于成功获取了名片内容。
我的问题是,我将所有内容存储在一个 TextView 中,如何从中获取姓名和 phone 号码以及电子邮件?有什么想法可以从字符串中获取我想要的最重要的细节吗?提前致谢。
我了解到您想使用 Google Cloud Vision API.
从卡片中提取和识别某些数据
您已经能够通过 OCR 获取数据,但问题在于如何识别这些数据,因为卡片的样式和结构数量不限。
正如@Inga 在评论中提到的那样,您可以尝试使用正则表达式,尽管这可能会随着您要考虑的样式和结构越多而变得越难。
所以我还建议您考虑使用机器学习方法。
例如,查看这篇关于 Parsing Structured Documents with Custom Entity Extraction. It makes use of Google Cloud Vision API to read the data, same as you; but then it uses Google Cloud Natural Language API 通过实体提取识别某些元素的文章。
查看 Natural Language Entity's description 以了解您可以使用此功能识别哪些元素,例如名称、Phone 号码和地址。
同理,如果这个特征没有匹配到你需要识别的所有数据,你也可以考虑选择creating and training a custom AutoML Natural Language model的选项来提取具体类型的数据。前面提到的文章也利用它来识别餐厅菜单中的特定数据。
您不妨也考虑一下 Google Cloud Document AI,它也提供面向文档分析的 OCR 功能。
使用google云视API(OCR)终于成功获取了名片内容。 我的问题是,我将所有内容存储在一个 TextView 中,如何从中获取姓名和 phone 号码以及电子邮件?有什么想法可以从字符串中获取我想要的最重要的细节吗?提前致谢。
我了解到您想使用 Google Cloud Vision API.
从卡片中提取和识别某些数据您已经能够通过 OCR 获取数据,但问题在于如何识别这些数据,因为卡片的样式和结构数量不限。
正如@Inga 在评论中提到的那样,您可以尝试使用正则表达式,尽管这可能会随着您要考虑的样式和结构越多而变得越难。
所以我还建议您考虑使用机器学习方法。
例如,查看这篇关于 Parsing Structured Documents with Custom Entity Extraction. It makes use of Google Cloud Vision API to read the data, same as you; but then it uses Google Cloud Natural Language API 通过实体提取识别某些元素的文章。
查看 Natural Language Entity's description 以了解您可以使用此功能识别哪些元素,例如名称、Phone 号码和地址。
同理,如果这个特征没有匹配到你需要识别的所有数据,你也可以考虑选择creating and training a custom AutoML Natural Language model的选项来提取具体类型的数据。前面提到的文章也利用它来识别餐厅菜单中的特定数据。
您不妨也考虑一下 Google Cloud Document AI,它也提供面向文档分析的 OCR 功能。