使用主题建模 Java 工具包

Using topic modeling Java toolkit

我正在研究文本分类,我想使用主题模型 (LDA)。 我的语料库包含至少 24, 000 篇波斯语新闻文档。语料库中的每个文档都是从新闻中提取的(关键字,权重)对的格式。

我看到了两个 Java 工具包:mallet 和 lingpipe。 我已经阅读了有关导入数据的 mallet 教程,它以纯文本格式获取数据,而不是我所拥有的格式。有什么办法可以改变它吗?

还阅读了一些关于 lingpipe 的内容,教程中的示例使用了整数数组。大数据方便吗?

我需要知道哪种 LDA 实现更适合我?还有其他适合我的数据的实现吗? (在 Java)

从关键字权重文件中,您可以创建一个人工文本,其中包含具有给定权重的随机顺序的单词。 运行 敲击生成的文本以检索主题。