带命名主题的文档标记,相关文献? (也在知乎上问过)
Document Tagging with Named Topics, relevant literature? (Also asked on Quora)
我正在研究对我来说是数据科学的一个非常新的领域,我想知道是否有人可以推荐任何现有的学术文献,这些文献具有解决我的问题的相关方法。
问题设置如下:
我有一组命名主题(大约 100 个主题)。我们有一个文档标记引擎,可以根据文档(在我们的例子中是新闻文章)的文本标记这 100 个主题中的最多 5 个。
所有这些都是使用相当基本的相似性度量来完成的(每个主题都是一个文本向量,每个文档也是一个文本向量,我们在这些向量之间进行相似性计算,并将最相似的 5 个主题分配给每个文档)。
我们正在寻求提高此过程的质量,但限制是我们必须维护 100 个命名主题的集合,这些主题对于其他目的至关重要,因此像 LDA 这样的无监督主题模型已经过时了,因为:
1.他们不提供命名主题
2. 即使我们能够以某种方式将 LDA 输出的主题分布映射到现有主题,这些分布也不会保持不变并且会随着基础语料库的变化而变化。
那么谁能给我指出使用一组有限的命名主题进行文档标记的论文?
这里有两个挑战:
1. 给定一组有限的命名主题,如何用它们标记新文档? (这是更大更明显的挑战)
2. 我们如何使主题随着不断变化的文档世界而更新?
解决其中一项或两项挑战的任何工作都会有很大帮助。
P.S。如果其他人正在寻找答案并想阅读这两篇文章,我也在 Quora 上问过这个问题。我正在重复这个问题,因为我觉得它很有趣,我想让尽可能多的人谈论这个问题,并尽可能多地提出文献建议。
你试过分类吗?
为每个主题训练一个分类器。
最有可能 类 的 5 个标签。
我正在研究对我来说是数据科学的一个非常新的领域,我想知道是否有人可以推荐任何现有的学术文献,这些文献具有解决我的问题的相关方法。
问题设置如下: 我有一组命名主题(大约 100 个主题)。我们有一个文档标记引擎,可以根据文档(在我们的例子中是新闻文章)的文本标记这 100 个主题中的最多 5 个。
所有这些都是使用相当基本的相似性度量来完成的(每个主题都是一个文本向量,每个文档也是一个文本向量,我们在这些向量之间进行相似性计算,并将最相似的 5 个主题分配给每个文档)。
我们正在寻求提高此过程的质量,但限制是我们必须维护 100 个命名主题的集合,这些主题对于其他目的至关重要,因此像 LDA 这样的无监督主题模型已经过时了,因为: 1.他们不提供命名主题 2. 即使我们能够以某种方式将 LDA 输出的主题分布映射到现有主题,这些分布也不会保持不变并且会随着基础语料库的变化而变化。
那么谁能给我指出使用一组有限的命名主题进行文档标记的论文?
这里有两个挑战: 1. 给定一组有限的命名主题,如何用它们标记新文档? (这是更大更明显的挑战) 2. 我们如何使主题随着不断变化的文档世界而更新? 解决其中一项或两项挑战的任何工作都会有很大帮助。
P.S。如果其他人正在寻找答案并想阅读这两篇文章,我也在 Quora 上问过这个问题。我正在重复这个问题,因为我觉得它很有趣,我想让尽可能多的人谈论这个问题,并尽可能多地提出文献建议。
你试过分类吗?
为每个主题训练一个分类器。
最有可能 类 的 5 个标签。