如何通过 java 使用 stanford-nlp 或 OpenNLP extract/identify 给定文本中的单词或文本
How to extract/identify word or text from the given text using stanford-nlp or OpenNLP via java
我准备从社交媒体、新闻网站、博客上发布的与政治、WAR、药物等特定领域相关的 RAW 测试中提取一些信息。所以我已经开始了使用一些开源库,例如 stanford-nlp、apache OpenNLP 以及名为 lexalytics 的商业许可工具。
根据我的项目,我们正在分析 post 公开发布的文本并生成一些结果,并根据一些参数进行挖掘以识别那些 post 与哪个类别相关。
但我需要使用 stanford-nlp 库从给定文本中提取主题。主题是指与教育、政治等相关的文本或句子。我已经能够提取像 text/sentences 这样的实体,其中包含 LOCATION、DATE、PERSON、MONEY 这样的方式。
lexalytics 也有相同的主题提取,它是一个许可证工具。
感谢您的帮助。
谢谢。
可以使用生成模型从文本文档中提取主题,其中根据部署了 LDA 等算法的主题假设分布的单词是先验的
Open Calais API http://www.opencalais.com/opencalais-api/
为您提供 single/multiple 个主题以及文档所基于的相关置信度值。
我准备从社交媒体、新闻网站、博客上发布的与政治、WAR、药物等特定领域相关的 RAW 测试中提取一些信息。所以我已经开始了使用一些开源库,例如 stanford-nlp、apache OpenNLP 以及名为 lexalytics 的商业许可工具。
根据我的项目,我们正在分析 post 公开发布的文本并生成一些结果,并根据一些参数进行挖掘以识别那些 post 与哪个类别相关。
但我需要使用 stanford-nlp 库从给定文本中提取主题。主题是指与教育、政治等相关的文本或句子。我已经能够提取像 text/sentences 这样的实体,其中包含 LOCATION、DATE、PERSON、MONEY 这样的方式。
lexalytics 也有相同的主题提取,它是一个许可证工具。
感谢您的帮助。
谢谢。
可以使用生成模型从文本文档中提取主题,其中根据部署了 LDA 等算法的主题假设分布的单词是先验的
Open Calais API http://www.opencalais.com/opencalais-api/
为您提供 single/multiple 个主题以及文档所基于的相关置信度值。