如何使用 Java 中的 HashMap 从两个单独的文本文件中删除相同的单词?

How do I remove identical words from two separate text files using HashMaps in Java?

我正在努力从 Java 的一本书文件中取出连接词(连词),所以只剩下实质性的词。我能够读取 book.txt 文件的信息,将其拆分为标记,删除标点符号,并按单词被说的次数排序。但是,我无法弄清楚如何将这本书的数据与前面提到的这些连词的另一个文件进行比较。我想过将每个连接词放入一个 HashMap 中,但数字值和单词放在一起对我来说似乎不合适。有没有人对如何有效地执行此操作有任何建议?我还是一个初级程序员:)

谢谢!

如果我没听错的话,您在文件中存储了一段文本,您希望从中删除 'Conjuction' 个单词。连接词存储在单独的文件中。

如果您想要从文本中删除这些连词的所有实例,则以下代码可以做到。 (假设您已经将文本和连词加载到两个字符串中)

//Load text from file into string 'text'
//Load conjuctions from file into string 'conjs'

//Split the conjunctions into separate elements of an array
List<String> conjsArray = Arrays.asList(conjs.split("\s+")); 

//Iterate over each conjunction word, and remove all instances of it from the text
for (String conjunction : conjsArray){
    text = text.replaceAll(conjunction, "");
}