修复我的代码中的这个 java 分词器错误，尝试通过文本文档解析关键字频率但停留在这个位置

Question

我在我的解析器 class Java 中创建了这个输入 reader，它计算 HTML 个来源的 5 个文本文档文件中 5 个关键字的频率。

1) 但是首先我有以下逻辑错误：这条线上有多个标记。 - StringTokenizer 无法解析一个类型 - StringTokenizer 无法解析类型

我的数组列表行中有无法解析的数组。

2) 如果错误已修复，我该如何让我的解析器一次读取 5 个文档？

这是我的主要内容 Java:

import java.io.FileNotFoundException;
import java.io.IOException;
public class TfIdfMain {

    public static void main(String args[]) throws FileNotFoundException, IOException {
    }
}

这是我的文档解析器 class:

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class DocumentParser {

    private void doSomething(){
            [10];
            String x;
            int count = -1;
            while (str.hasMoreTokens()) {
                count++;
                x = str.nextToken();
                word[count] = x;
               System.out.println(count + ": " + word[count]);
            }

            System.out.println("---Frequency---");
            for (int i = 0; i < 7; i++) {

                if ((!Arrays.asList(unique).contains(word[i]))) {
                    unique[i] = word[i];
                }

                                  );
            }
        }
    }
}

Answer 1

对于一组多个文件：

String[] files = {"foo.txt", "bar.txt", "baz.txt"};

for(String file : files) {
    DocumentParser dp = new DocumentParser();
    dp.parseFiles(file);
    dp.getCosineMatrix();
}

基本上，定义文件数组，然后使用 for 循环进行迭代，每次都创建一个新的 DocParser。如果您可以对新文件重用 DocParser，则只需将 DocumentParser 声明移到 for 循环之外。

修复我的代码中的这个 java 分词器错误，尝试通过文本文档解析关键字频率但停留在这个位置

Fixing this java tokenizer error in my code, trying to parse through text document for keywords frequency but stuck at this

java

arrays

parsing

keyword

tokenize