如何使用 groovy HtmlParsing 从网站获得正确的编码？

Question

我正在制作一个 Groovy 脚本，其中我正在 html 解析瑞典语网站，我想从该网站获取瑞典语字符 Å、Ä 和 Ö。

这是我尝试做的一个例子（不是我在我的项目中抓取的实际网站，而是一个例子）。

当我运行下面的脚本在我真正想要 "Avancerad sökning".

时给我输出 "Avancerad s�kning"

有谁知道这种编码的好方法吗？

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )

String page= "http://www.webhallen.com/se-sv/"

def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)

htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}

Answer 1

不确定，但它适用于 nekohtml：

@Grab('net.sourceforge.nekohtml:nekohtml:1.9.21')

String page= "http://www.webhallen.com/se-sv/"

def tagsoupParser = new org.cyberneko.html.parsers.SAXParser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)

htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}

如何使用 groovy HtmlParsing 从网站获得正确的编码？

How to get correct encoding with groovy HtmlParsing from a website?

html

groovy

character-encoding