Weka StringToWordVector 过滤器 - Java 中的实现
Weka StringToWordVector Filter - Implementation in Java
我开始试用 Weka GUI 应用程序以了解如何构建我的文本分类器,并且我使用 GUI 成功构建并保存了一个模型。
现在,我想在 Java 代码中实现分类器。 但我似乎无法像在 GUI 中那样在代码中设置 StringToWordVector 过滤器的停用词和分词器设置。 (见截图。)
(当然,没有将停用词处理程序设置为 NULL。)
我知道我可以将我创建并从 GUI 保存的模型加载到代码中。但是我需要在 Java.
中实现过滤器
我尝试使用这里的代码:Different results in Weka GUI and Weka via Java code
主要是这部分(当然是改路径后):
String opt = "-W -P 0 -M 5.0 -norm 1.0 -lnorm 2.0 -lowercase -stoplist - stopwords C:\Users\Fernando\workspace\GPCommentsAnalyzer\pt-br_stopwords.dat -tokenizer \"weka.core.tokenizers.NGramTokenizer -delimiters ' \r\n\t.,;:\\'\\"()?!\' -max 2 -min 1\" -stemmer weka.core.stemmers.NullStemmer";
但是,还是不行。
我在任何地方都找不到关于这个主题的任何文档。任何帮助将不胜感激!
(我使用的是Weka 3.7.12版本)
使用 GUI 设置您的配置,然后使用上下文菜单中的将配置复制到剪贴板选项。
我开始试用 Weka GUI 应用程序以了解如何构建我的文本分类器,并且我使用 GUI 成功构建并保存了一个模型。
现在,我想在 Java 代码中实现分类器。 但我似乎无法像在 GUI 中那样在代码中设置 StringToWordVector 过滤器的停用词和分词器设置。 (见截图。)
(当然,没有将停用词处理程序设置为 NULL。)
我知道我可以将我创建并从 GUI 保存的模型加载到代码中。但是我需要在 Java.
中实现过滤器我尝试使用这里的代码:Different results in Weka GUI and Weka via Java code 主要是这部分(当然是改路径后):
String opt = "-W -P 0 -M 5.0 -norm 1.0 -lnorm 2.0 -lowercase -stoplist - stopwords C:\Users\Fernando\workspace\GPCommentsAnalyzer\pt-br_stopwords.dat -tokenizer \"weka.core.tokenizers.NGramTokenizer -delimiters ' \r\n\t.,;:\\'\\"()?!\' -max 2 -min 1\" -stemmer weka.core.stemmers.NullStemmer";
但是,还是不行。
我在任何地方都找不到关于这个主题的任何文档。任何帮助将不胜感激!
(我使用的是Weka 3.7.12版本)
使用 GUI 设置您的配置,然后使用上下文菜单中的将配置复制到剪贴板选项。