ISO-8859-1 编码字符串到 UTF-8 字符串
ISO-8859-1 encoded string to UTF-8 string
我正在使用 HtmlAgilityPack 从某些网站获取一些元数据。然而,很多网站的元数据内容都是用 ISO-8857-1 编码保存的,所以我得到的字符串如下:
Alt sammen under ét tag. Kontakt os i dag på
作为编码初学者,我完全不知道如何获取常规的 UTF-8 编码字符串。我试过这样的程序:
Encoding.GetEncoding("iso-8859-1").GetString(Encoding.UTF8.GetBytes(input));
这只会给我一个更晦涩的字符串。有人能指出我正确的方向吗?当我将 iso-8859-1 字符写入引号块时,即使堆栈溢出也会将它们转换为正确的字符。
您在寻找
"Alt sammen under ét tag. Kontakt os i dag på"
作为输出?
在那种情况下,您可能会将字符编码与 html 编码混淆,后者是页面字符编码之上的另一层编码。
如果是这种情况,请使用 system.web.httputility.htmldecode 获取字符串 "human-readable"。
我正在使用 HtmlAgilityPack 从某些网站获取一些元数据。然而,很多网站的元数据内容都是用 ISO-8857-1 编码保存的,所以我得到的字符串如下:
Alt sammen under ét tag. Kontakt os i dag på
作为编码初学者,我完全不知道如何获取常规的 UTF-8 编码字符串。我试过这样的程序:
Encoding.GetEncoding("iso-8859-1").GetString(Encoding.UTF8.GetBytes(input));
这只会给我一个更晦涩的字符串。有人能指出我正确的方向吗?当我将 iso-8859-1 字符写入引号块时,即使堆栈溢出也会将它们转换为正确的字符。
您在寻找
"Alt sammen under ét tag. Kontakt os i dag på"
作为输出?
在那种情况下,您可能会将字符编码与 html 编码混淆,后者是页面字符编码之上的另一层编码。
如果是这种情况,请使用 system.web.httputility.htmldecode 获取字符串 "human-readable"。