如何使用 groovy HtmlParsing 从网站获得正确的编码?
How to get correct encoding with groovy HtmlParsing from a website?
我正在制作一个 Groovy 脚本,其中我正在 html 解析瑞典语网站,我想从该网站获取瑞典语字符 Å、Ä 和 Ö。
这是我尝试做的一个例子(不是我在我的项目中抓取的实际网站,而是一个例子)。
当我 运行 下面的脚本在我真正想要 "Avancerad sökning".
时给我输出 "Avancerad s�kning"
有谁知道这种编码的好方法吗?
@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
String page= "http://www.webhallen.com/se-sv/"
def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)
htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}
不确定,但它适用于 nekohtml:
@Grab('net.sourceforge.nekohtml:nekohtml:1.9.21')
String page= "http://www.webhallen.com/se-sv/"
def tagsoupParser = new org.cyberneko.html.parsers.SAXParser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)
htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}
我正在制作一个 Groovy 脚本,其中我正在 html 解析瑞典语网站,我想从该网站获取瑞典语字符 Å、Ä 和 Ö。
这是我尝试做的一个例子(不是我在我的项目中抓取的实际网站,而是一个例子)。
当我 运行 下面的脚本在我真正想要 "Avancerad sökning".
时给我输出 "Avancerad s�kning"有谁知道这种编码的好方法吗?
@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
String page= "http://www.webhallen.com/se-sv/"
def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)
htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}
不确定,但它适用于 nekohtml:
@Grab('net.sourceforge.nekohtml:nekohtml:1.9.21')
String page= "http://www.webhallen.com/se-sv/"
def tagsoupParser = new org.cyberneko.html.parsers.SAXParser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)
htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}