如何一次 运行 20000 个文档的主题模型?

how to run topic model on 20000 documents at once?

我有20000个新闻文档要运行上面的主题建模:

我想从文档中看到话题的动态和演变。我尝试将以下批处理脚本与 mallet 的主题建模一起使用,但没有用。

#!/bin/bash
for filename in /Users/JasonDou/code/internet_finance/bydocafterseg2; do
    ./bin/mallet import-dir --input /Users/JasonDou/code/internet_finance/bydocafterseg2/159047443.txt  --output bydoc-input.mallet --keep-sequence --remove-stopwords
done

您缺少一个星号:

#!/bin/bash
for filename in "/Users/JasonDou/code/internet_finance/bydocafterseg2/"*; do
    [ -e "$filename" ] || continue
    ./bin/mallet import-dir --input "$filename" \
      --output bydoc-input.mallet --keep-sequence --remove-stopwords
done

以上将列出遍历 bydocafterseg2 中的每个文件。您可以将其更改为所有 .txt 个文件:"bydocafterseg2/"*".txt"