大型文档的实体提取

Entity extraction on large documents

我需要从 word 和 pdf 文档中提取实体。文档可以在 10 到 20 页的范围内。是否有可扩展的 library/APIs 可用,我们可以插入我们的处理管道?任何不同解决方案的比较研究都会有所帮助。

查看 Watson Natural Language Understanding (you'll need to get an IBM ID and then login to see this content - don't worry , cost is [=10=]). With Watson Natural Language Understanding you will want to look at the API Explorer 以找到正确的 API 语法来获得您正在寻找的结果。

我还注意到提到 Word/PDF 文件。您将需要使用 Watson Discovery service, and then you can pass the converted documents to Watson Natural Language Understanding 转换那些,它接受 JSON、文本或 HTML 输入。