如何使用 groovy HtmlParsing 从网站获得正确的编码?

How to get correct encoding with groovy HtmlParsing from a website?

我正在制作一个 Groovy 脚本,其中我正在 html 解析瑞典语网站,我想从该网站获取瑞典语字符 Å、Ä 和 Ö。

这是我尝试做的一个例子(不是我在我的项目中抓取的实际网站,而是一个例子)。

当我 运行 下面的脚本在我真正想要 "Avancerad sökning".

时给我输出 "Avancerad s�kning"

有谁知道这种编码的好方法吗?

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )

String page= "http://www.webhallen.com/se-sv/"

def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)

htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}

不确定,但它适用于 nekohtml:

@Grab('net.sourceforge.nekohtml:nekohtml:1.9.21')

String page= "http://www.webhallen.com/se-sv/"

def tagsoupParser = new org.cyberneko.html.parsers.SAXParser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)

htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}