CLUTO doc2mat 指定的停用词列表不起作用

CLUTO doc2mat specified stop word list not working

我正在尝试使用 doc2mat

将我的文档转换为矢量-space 格式

在网站上,它说我可以使用我指定的文本文件,其中的单词是白色的-space 分隔或多行。所以,我使用了一些类似于这个的代码:

./doc2mat -mystoplist=stopword.txt -skipnumeric mydocuments.txt myvectorspace.txt

但是,当我检查输出 .clabel 文件时,它仍然有停用词 stopword.txt

我真的不知道该怎么做。有人帮帮我好吗?谢谢!

我应该记住一件重要的事情:我应该将所有不需要的词都包含在我的停止列表中。这有点困难,因为总有一些变化可用...

例如,如果我想排除 method,我会将其添加到我的列表中。但是,生成的词汇表也可能包含 method,因为有 methodistmethods 等词。然后 doc2mat 默认提取这些词,我仍然会得到 method输出。

另一件事是确保必须为用户指定的停止列表提供“-nostop”选项。