将词嵌入与来自 LDA 的主题词分布结合起来进行文本摘要

Combine Word Embeddings with with topic-word distribution from LDA for text summarization

我是 NLP 的新手，我想知道通过考虑从 Word2Vec 检索到的词嵌入和主题 -已经生成的词分布，得出一个句子评分算法。这听起来像是创建文档摘要的好方法吗？

我想向您推荐这个 post。

您可以使用 Google or Facebook (check FastText 文档中的预训练 Word2Vec 模型来查看如何解析第二个模型或选择另一种语言，而不是在第 4 步中使用 Skip-Thought 编码器。

一般来说，您将有以下步骤：

文本清理（删除数字，但保留标点符号）。
语言检测（定义和删除停用词，并使用适当版本的 Word2Vec 模型）。
句子标记化（之后你可以删除标点符号）。
令牌编码（使用所选的 Word2Vec 模型）。
用Kmeans聚类获得的标记（你应该指定聚类的数量——它将等于未来摘要中的句子数量）。
获取摘要（摘要的一句话是一个集群的中间一句话，查看原文post了解更多细节和代码示例）。

希望对您有所帮助。祝你好运！ :)