将包含 HTML 的文本转换为纯文本

Trasform txt containing HTML to Plain Text

我正在尝试寻找一种工具来将包含 html 的 TXT 文件解析为纯文本,同时保持其格式、列表等

我找到了这个http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html 效果很好。唯一的问题是它读取 URL,而不是文件。我尝试对代码进行一些更改但没有成功

有人可以为我指明正确的方向,让我知道如何让它读取我的 txt 文件作为输入吗?

您可以开始研究示例程序的源代码:https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/HtmlToPlainText.java

从文件加载 html 而不是 URL 非常容易。 JSoup 可以轻松解析字符串。

例子

String fileName = "YOURFILE.htm";
Scanner scanner = new Scanner( new File(fileName) );
String content = scanner.useDelimiter("\A").next();
scanner.close() // Put this call in a finally block

Document doc = Jsoup.parse(content);
//do whatever with the JSoup document