如何从网站读取文本,就像它在浏览器中显示的那样

How read text from website like its presented in a browser

因此,有时在浏览器中显示在网站上的文本 window 看起来与表示文本的代码完全不同。

赞 ä看起来像 ä。有时是另一个 "distortions".

就我而言,我无法使用 UTF_8 或简单的 String.replaceAll 等标准来解决问题。所以我的问题是:

如何模拟在浏览器中查看网站时发生的 HTML 处理?是否有某种极轻量级的浏览器我可以启动并推动网站通过?或者我可以直接从打开的浏览器 window 阅读而不通过 "HTML-sourcecode"?

我想从技术上提取 window 就像我用鼠标标记文本并按下 ctrl+v 一样。

在java.

编辑:我对 HTML 进入浏览器的内容不感兴趣,但对另一端的结果感兴趣。抱歉,我不知道这个 "postbrowser"-language

的名称

阅读 JTidy 或其他一些 HTML 解析器。这将使您能够以编程方式处理源代码并相对容易地获取文本内容。