在 MALLET 中更改主题分布文件中的列顺序
Change order of columns in topic distribution file in MALLET
MALLET 在训练主题模型时使用 --output-doc-topics
参数生成一个制表符分隔的文件,其中包含每个文档的主题分布。它看起来像这样:
doc# filename topic# weight
0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ...
但是,我需要对这个文件进行不同的排序以便进一步处理。现在,列按主题权重降序排列(0.211...、0.133...等)。但是是否也可以按照主题编号(0,1,2,...)及其对应的权重进行升序排序?
最初,我认为排序可以用 Excel 完成,但文件太大(> 20 GB)。
可能有 MALLET 参数吗?我已经查看了 --help
部分,但没有找到任何相关内容。
否则,您能否推荐一个工具或API,能够进行这种排序?
谢谢!
如果你得到最新版本(2.0.8),默认显示所有主题按主题id排序:
--doc-topics-max INTEGER
When writing topic proportions per document with --output-doc-topics, do not print more than INTEGER number of topics. A negative value indicates that all topics should be printed.
Default is -1
MALLET 在训练主题模型时使用 --output-doc-topics
参数生成一个制表符分隔的文件,其中包含每个文档的主题分布。它看起来像这样:
doc# filename topic# weight
0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ...
但是,我需要对这个文件进行不同的排序以便进一步处理。现在,列按主题权重降序排列(0.211...、0.133...等)。但是是否也可以按照主题编号(0,1,2,...)及其对应的权重进行升序排序?
最初,我认为排序可以用 Excel 完成,但文件太大(> 20 GB)。
可能有 MALLET 参数吗?我已经查看了 --help
部分,但没有找到任何相关内容。
否则,您能否推荐一个工具或API,能够进行这种排序?
谢谢!
如果你得到最新版本(2.0.8),默认显示所有主题按主题id排序:
--doc-topics-max INTEGER
When writing topic proportions per document with --output-doc-topics, do not print more than INTEGER number of topics. A negative value indicates that all topics should be printed.
Default is -1