CLUTO doc2mat 指定的停用词列表不起作用
CLUTO doc2mat specified stop word list not working
我正在尝试使用 doc2mat
将我的文档转换为矢量-space 格式
在网站上,它说我可以使用我指定的文本文件,其中的单词是白色的-space 分隔或多行。所以,我使用了一些类似于这个的代码:
./doc2mat -mystoplist=stopword.txt -skipnumeric mydocuments.txt myvectorspace.txt
但是,当我检查输出 .clabel
文件时,它仍然有停用词 stopword.txt
。
我真的不知道该怎么做。有人帮帮我好吗?谢谢!
我应该记住一件重要的事情:我应该将所有不需要的词都包含在我的停止列表中。这有点困难,因为总有一些变化可用...
例如,如果我想排除 method
,我会将其添加到我的列表中。但是,生成的词汇表也可能包含 method
,因为有 methodist
、methods
等词。然后 doc2mat 默认提取这些词,我仍然会得到 method
输出。
另一件事是确保必须为用户指定的停止列表提供“-nostop”选项。
我正在尝试使用 doc2mat
将我的文档转换为矢量-space 格式在网站上,它说我可以使用我指定的文本文件,其中的单词是白色的-space 分隔或多行。所以,我使用了一些类似于这个的代码:
./doc2mat -mystoplist=stopword.txt -skipnumeric mydocuments.txt myvectorspace.txt
但是,当我检查输出 .clabel
文件时,它仍然有停用词 stopword.txt
。
我真的不知道该怎么做。有人帮帮我好吗?谢谢!
我应该记住一件重要的事情:我应该将所有不需要的词都包含在我的停止列表中。这有点困难,因为总有一些变化可用...
例如,如果我想排除 method
,我会将其添加到我的列表中。但是,生成的词汇表也可能包含 method
,因为有 methodist
、methods
等词。然后 doc2mat 默认提取这些词,我仍然会得到 method
输出。
另一件事是确保必须为用户指定的停止列表提供“-nostop”选项。