ASP.NET 核心 HtmlAgilityPack 编码错误
ASP.NET Core HtmlAgilityPack Encoding errors
有一些关于编码问题的帖子 HtmlAgilityPack
但这个问题没有得到解决:
因为我尝试解析的网站包含 Unicode 符号,例如 €
或 ä
,ü
我尝试将编码设置为 Unicode:
public class WebpageDeserializer
{
public WebpageDeserializer() {}
/*
* Example address: https://www.dslr-forum.de/showthread.php?t=1930368
*/
public static void Deserialize(string address)
{
var web = new HtmlWeb();
web.OverrideEncoding = Encoding.Unicode;
var htmlDoc = web.Load(address);
//further decoding fails because unicode decoded characters are not proper html (looks more like chinese)
}
}
但是现在
htmlDoc.DocumentNode.InnerHtml
看起来像这样:
ℼ佄呃偙⁅瑨汭倠䉕䥌⁃ⴢ⼯㍗⽃䐯䑔堠呈䱍ㄠ〮吠慲獮瑩潩慮⽬䔯≎...
如果我尝试使用 UTF-8
或 iso-8859-1
,€
符号将转换为 �
(以及 ä
、ö
, ü
).我该如何解决这个问题?
您的站点配置错误,实际编码是 cp1252。
下面的代码应该可以工作:
var client = new HttpClient();
var buf = await client.GetByteArrayAsync("https://www.dslr-forum.de/showthread.php?t=1930368");
var html = Encoding.GetEncoding(1252).GetString(buf);
var doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
而不是 Encoding.Unicode
使用:
web.OverrideEncoding = Encoding.GetEncoding("iso-8859-1");
(已使用您的网站和德语变音符号进行测试)
要获得正确的编码,请检查目标网站的 header。
它包含正确的提示:
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
有一些关于编码问题的帖子 HtmlAgilityPack
但这个问题没有得到解决:
因为我尝试解析的网站包含 Unicode 符号,例如 €
或 ä
,ü
我尝试将编码设置为 Unicode:
public class WebpageDeserializer
{
public WebpageDeserializer() {}
/*
* Example address: https://www.dslr-forum.de/showthread.php?t=1930368
*/
public static void Deserialize(string address)
{
var web = new HtmlWeb();
web.OverrideEncoding = Encoding.Unicode;
var htmlDoc = web.Load(address);
//further decoding fails because unicode decoded characters are not proper html (looks more like chinese)
}
}
但是现在
htmlDoc.DocumentNode.InnerHtml
看起来像这样:
ℼ佄呃偙⁅瑨汭倠䉕䥌⁃ⴢ⼯㍗⽃䐯䑔堠呈䱍ㄠ〮吠慲獮瑩潩慮⽬䔯≎...
如果我尝试使用 UTF-8
或 iso-8859-1
,€
符号将转换为 �
(以及 ä
、ö
, ü
).我该如何解决这个问题?
您的站点配置错误,实际编码是 cp1252。
下面的代码应该可以工作:
var client = new HttpClient();
var buf = await client.GetByteArrayAsync("https://www.dslr-forum.de/showthread.php?t=1930368");
var html = Encoding.GetEncoding(1252).GetString(buf);
var doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
而不是 Encoding.Unicode
使用:
web.OverrideEncoding = Encoding.GetEncoding("iso-8859-1");
(已使用您的网站和德语变音符号进行测试)
要获得正确的编码,请检查目标网站的 header。 它包含正确的提示:
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">