用于文档分类的 NLP 技术?
NLP techniques for document classification?
我想知道是否有任何用于文档分类的 NLP 技术。我想知道来自词性标记的 n-gram 统计数据是否有用?我似乎无法在有关该主题的文献中找到太多..
有没有人发现任何 nlp 技术可以增强他们的文档分类工作?如果您知道有关此主题的任何调查,那将是非常棒的。
注意。我看到了 this question,但我的语料库太大了,唯一的解决方案是实用的。
引用:
but my corpus is way too large for the only solution there to be
practical.
主题建模!
文档分类是目前我们研究组和其他 NLP 组中的一个非常热门的话题。我们的主要重点是概率主题建模。主题模型是一系列算法,旨在发现大型文档档案中隐藏的主题结构以进行分类。令人兴奋的是,有很大的创新、发明和一般改进空间。有很多东西可以研究,例如集成、混合和其他统计技术。
斯坦福自然语言处理小组 有一个免费的开源工具,用于主题模型原型制作,称为 Stanford Topic Modelling Toolbox。我建议你去看看。
一个起点(也许?)
我想知道是否有任何用于文档分类的 NLP 技术。我想知道来自词性标记的 n-gram 统计数据是否有用?我似乎无法在有关该主题的文献中找到太多..
有没有人发现任何 nlp 技术可以增强他们的文档分类工作?如果您知道有关此主题的任何调查,那将是非常棒的。
注意。我看到了 this question,但我的语料库太大了,唯一的解决方案是实用的。
引用:
but my corpus is way too large for the only solution there to be practical.
主题建模!
文档分类是目前我们研究组和其他 NLP 组中的一个非常热门的话题。我们的主要重点是概率主题建模。主题模型是一系列算法,旨在发现大型文档档案中隐藏的主题结构以进行分类。令人兴奋的是,有很大的创新、发明和一般改进空间。有很多东西可以研究,例如集成、混合和其他统计技术。
斯坦福自然语言处理小组 有一个免费的开源工具,用于主题模型原型制作,称为 Stanford Topic Modelling Toolbox。我建议你去看看。
一个起点(也许?)