从一组文档中自动提取关键字（AKE）？

Automatic keywords extraction(AKE) from a set of documents?

许多算法都是关于从单个文档中提取的。但是我想知道如何从一组文档中提取关键字（或特征词）来代表这组文档的特征？一次放入所有文档进行分析可能过于昂贵。有什么算法可以让我一次处理一个文档，然后 combine/calculate 将结果一起生成这组文档的关键字吗？

一种方法是提取关键字（几个商业 API）及其 tf/idf 分数，进行一些清理和规范化。您需要进行一些测试，并确定一个可接受的最低分数阈值，低于该阈值的分数将与 b/c 无关。