如何一次 运行 20000 个文档的主题模型?
how to run topic model on 20000 documents at once?
我有20000个新闻文档要运行上面的主题建模:
我想从文档中看到话题的动态和演变。我尝试将以下批处理脚本与 mallet 的主题建模一起使用,但没有用。
#!/bin/bash
for filename in /Users/JasonDou/code/internet_finance/bydocafterseg2; do
./bin/mallet import-dir --input /Users/JasonDou/code/internet_finance/bydocafterseg2/159047443.txt --output bydoc-input.mallet --keep-sequence --remove-stopwords
done
您缺少一个星号:
#!/bin/bash
for filename in "/Users/JasonDou/code/internet_finance/bydocafterseg2/"*; do
[ -e "$filename" ] || continue
./bin/mallet import-dir --input "$filename" \
--output bydoc-input.mallet --keep-sequence --remove-stopwords
done
以上将列出遍历 bydocafterseg2
中的每个文件。您可以将其更改为所有 .txt
个文件:"bydocafterseg2/"*".txt"
我有20000个新闻文档要运行上面的主题建模:
我想从文档中看到话题的动态和演变。我尝试将以下批处理脚本与 mallet 的主题建模一起使用,但没有用。
#!/bin/bash
for filename in /Users/JasonDou/code/internet_finance/bydocafterseg2; do
./bin/mallet import-dir --input /Users/JasonDou/code/internet_finance/bydocafterseg2/159047443.txt --output bydoc-input.mallet --keep-sequence --remove-stopwords
done
您缺少一个星号:
#!/bin/bash
for filename in "/Users/JasonDou/code/internet_finance/bydocafterseg2/"*; do
[ -e "$filename" ] || continue
./bin/mallet import-dir --input "$filename" \
--output bydoc-input.mallet --keep-sequence --remove-stopwords
done
以上将列出遍历 bydocafterseg2
中的每个文件。您可以将其更改为所有 .txt
个文件:"bydocafterseg2/"*".txt"