关键字提取如何工作?

How does keyword extraction works?

我使用以下文本测试了从 IBM 的自然语言理解服务提取关键字:

Desarrollo PDA。调整 PDA。新模PDA。调整模数 PDA。没有 sincroniza PDA。误差模 PDA。

我得到了以下回复:

现在我的问题是,为什么 "modulo pda" 关键字相关性为 98.31% 而不仅仅是 "PDA" 具有更高的相关性?。我一直在到处搜索 IBM 是如何工作的,但无济于事。

用于提取和评分关键字的实际算法将是公司的专有配方,我不希望他们能做到 public。但是你可以找到很多关于该主题的研究论文,但通常最终的商业产品会包含不同技术的组合以获得最佳结果。

您可以比较来自不同供应商的不同 NLU 服务,例如 IBM、Google、Amazon 并比较结果。

具体针对您的查询,您正试图从单个文档中提取关键字或主题。 PDA 出现在文档中的每个句子中。如果我们应用像 TF-IDF 这样的简单技术,其中每个句子都是一个文档,则单词 PDA 的 TF-IDF = 0,因为它出现在每个句子中并且变得无关紧要,因为它没有向整体主题或文档重要性添加信息。