从一组文档中自动提取关键字(AKE)?
Automatic keywords extraction(AKE) from a set of documents?
许多算法都是关于从单个文档中提取的。但是我想知道如何从一组文档中提取关键字(或特征词)来代表这组文档的特征?一次放入所有文档进行分析可能过于昂贵。有什么算法可以让我一次处理一个文档,然后 combine/calculate 将结果一起生成这组文档的关键字吗?
一种方法是提取关键字(几个商业 API)及其 tf/idf 分数,进行一些清理和规范化。您需要进行一些测试,并确定一个可接受的最低分数阈值,低于该阈值的分数将与 b/c 无关。
许多算法都是关于从单个文档中提取的。但是我想知道如何从一组文档中提取关键字(或特征词)来代表这组文档的特征?一次放入所有文档进行分析可能过于昂贵。有什么算法可以让我一次处理一个文档,然后 combine/calculate 将结果一起生成这组文档的关键字吗?
一种方法是提取关键字(几个商业 API)及其 tf/idf 分数,进行一些清理和规范化。您需要进行一些测试,并确定一个可接受的最低分数阈值,低于该阈值的分数将与 b/c 无关。