自动摘要:基于提取

Automatic Summarization : Extraction Based

基于提取的自动摘要算法是什么?用谷歌搜索了很多,找不到与之相关的任何内容。我想在 python

上实施算法

没有一种算法可用于基于提取的摘要。有几种不同的算法可供选择。您应该选择适合您特定需求的一款。

基于提取的摘要有两种方法:

  • 监督学习 - 您为程序提供大量文档示例及其关键字。该程序学习什么构成了关键字。然后你给它一个新文档,这次没有任何关键字,程序根据它在训练阶段学到的东西提取这个文档的关键字。有大量的监督学习技术。举几个例子,有神经网络、决策树、随机森林和支持向量机。

  • 无监督学习——你只需给程序一个文档,它就会创建一个关键字列表,而不依赖于任何过去的经验。用于基于提取的摘要的一种流行的无监督算法是 TextRank。

首先,我认为您应该了解更多有关如何查找论文和研究的信息。到google还没有找到是绝对不可能的。无论如何,一些基于提取的文本摘要是:

  1. 简单易行的基于词频的方法
  2. 贝叶斯方法
  3. 基于图的方法,例如 TextRank/LexRank 是一个好的开始。
  4. 聚类
  5. 用于摘要的模糊系统
  6. 基于神经网络的系统
  7. 我见过基于优化算法的方法
    我建议用谷歌搜索这些方法,看看你得到了什么。这些方法有很多变体,我真的无法说出哪种方法最好。记得也要找到合适的预处理工具。
    祝你好运。