将词嵌入与来自 LDA 的主题词分布结合起来进行文本摘要

Combine Word Embeddings with with topic-word distribution from LDA for text summarization

我是 NLP 的新手,我想知道通过考虑从 Word2Vec 检索到的词嵌入和主题 -已经生成的词分布,得出一个句子评分算法。这听起来像是创建文档摘要的好方法吗?

我想向您推荐这个 post

您可以使用 Google or Facebook (check FastText 文档中的预训练 Word2Vec 模型来查看如何解析第二个模型或选择另一种语言,而不是在第 4 步中使用 Skip-Thought 编码器。

一般来说,您将有以下步骤:

  1. 文本清理(删除数字,但保留标点符号)。
  2. 语言检测(定义和删除停用词,并使用适当版本的 Word2Vec 模型)。
  3. 句子标记化(之后你可以删除标点符号)。
  4. 令牌编码(使用所选的 Word2Vec 模型)。
  5. Kmeans聚类获得的标记(你应该指定聚类的数量——它将等于未来摘要中的句子数量)。
  6. 获取摘要(摘要的一句话是一个集群的中间一句话,查看原文post了解更多细节和代码示例)。

希望对您有所帮助。祝你好运! :)