将词嵌入与来自 LDA 的主题词分布结合起来进行文本摘要
Combine Word Embeddings with with topic-word distribution from LDA for text summarization
我是 NLP 的新手,我想知道通过考虑从 Word2Vec 检索到的词嵌入和主题 -已经生成的词分布,得出一个句子评分算法。这听起来像是创建文档摘要的好方法吗?
我想向您推荐这个 post。
您可以使用 Google or Facebook (check FastText 文档中的预训练 Word2Vec 模型来查看如何解析第二个模型或选择另一种语言,而不是在第 4 步中使用 Skip-Thought 编码器。
一般来说,您将有以下步骤:
- 文本清理(删除数字,但保留标点符号)。
- 语言检测(定义和删除停用词,并使用适当版本的 Word2Vec 模型)。
- 句子标记化(之后你可以删除标点符号)。
- 令牌编码(使用所选的 Word2Vec 模型)。
- 用Kmeans聚类获得的标记(你应该指定聚类的数量——它将等于未来摘要中的句子数量)。
- 获取摘要(摘要的一句话是一个集群的中间一句话,查看原文post了解更多细节和代码示例)。
希望对您有所帮助。祝你好运! :)
我是 NLP 的新手,我想知道通过考虑从 Word2Vec 检索到的词嵌入和主题 -已经生成的词分布,得出一个句子评分算法。这听起来像是创建文档摘要的好方法吗?
我想向您推荐这个 post。
您可以使用 Google or Facebook (check FastText 文档中的预训练 Word2Vec 模型来查看如何解析第二个模型或选择另一种语言,而不是在第 4 步中使用 Skip-Thought 编码器。
一般来说,您将有以下步骤:
- 文本清理(删除数字,但保留标点符号)。
- 语言检测(定义和删除停用词,并使用适当版本的 Word2Vec 模型)。
- 句子标记化(之后你可以删除标点符号)。
- 令牌编码(使用所选的 Word2Vec 模型)。
- 用Kmeans聚类获得的标记(你应该指定聚类的数量——它将等于未来摘要中的句子数量)。
- 获取摘要(摘要的一句话是一个集群的中间一句话,查看原文post了解更多细节和代码示例)。
希望对您有所帮助。祝你好运! :)