Delphi & 印地 & utf8
Delphi & Indy & utf8
我在使用 utf8 字符集访问网站时遇到问题,例如,当我尝试访问这个 www
所有 utf8 字符都没有正确编码。
这是我的访问例程:
var
Web : TIdHTTP;
Sito : String;
hIOHand : TIdSSLIOHandlerSocketOpenSSL;
begin
Url := TIdURI.URLEncode(Url);
try
Web := TIdHTTP.Create(nil);
hIOHand := TIdSSLIOHandlerSocketOpenSSL.Create(nil);
hIOHand.DefStringEncoding := IndyTextEncoding_UTF8;
hIOHand.SSLOptions.SSLVersions := [sslvTLSv1,sslvTLSv1_1,sslvTLSv1_2,sslvSSLv2,sslvSSLv3,sslvSSLv23];
Web.IOHandler := hIOHand;
Web.Request.CharSet := 'utf-8';
Web.Request.UserAgent := INET_USERAGENT; //Custom user agent string
Web.RedirectMaximum := INET_REDIRECT_MAX; //Maximum redirects
Web.HandleRedirects := INET_REDIRECT_MAX <> 0; //Handle redirects
Web.ReadTimeOut := INET_TIMEOUT_SECS * 1000; //Read timeout msec
try
Sito := Web.Get(Url);
Web.Disconnect;
except
on e : exception do
Sito := 'ERR: ' +Url+#32+e.Message;
end;
finally
Web.Free;
hIOHand.Free;
end;
我尝试了所有解决方案,但在 Sito var 中我总是发现错误的字符,例如 "name" 的正确值是
"name": "Aire d'adhésion du Parc national du Mercantour",
但是在 Get 指令之后我有
"name": "Aire d'adhésion du Parc national du Mercantour",
你知道我的错误在哪里吗?
谢谢大家!
在 Delphi 2009+(包括 XE6)中,string
是 UTF-16 编码 UnicodeString
.
您正在使用 TIdHTTP.Get()
的重载版本 returns 和 string
。它使用响应报告的任何字符集将发送的文本解码为 UTF-16。如果文本未正确解码,则可能意味着响应未报告正确的字符集。如果使用了错误的字符集,文本将无法正确解码。
所讨论的 URL 实际上是在发送一个设置为 application/json
的响应 Content-Type
header 而根本没有指定 charset
. application/json
的默认字符集是 UTF-8,但 Indy 不知道这一点,所以它最终使用自己的内部默认值,而不是 UTF-8。这就是当存在 non-ASCII 个字符时文本无法正确解码的原因。
在这种情况下,如果您知道字符集将始终为 UTF-8,您可以选择一些解决方法:
您可以通过在 IdGlobal
单元中设置全局 GIdDefaultTextEncoding
变量来将 Indy 的默认字符集设置为 UTF-8:
GIdDefaultTextEncoding := encUTF8;
您可以使用TIdHTTP.OnHeadersAvailable
事件将TIdHTTP.Response.Charset
属性更改为'utf-8'
如果它是空白或不正确。
Web.OnHeadersAvailable := CheckResponseCharset;
...
procedure TMyClass.CheckResponseCharset(Sender: TObject; AHeaders: TIdHeaderList; var VContinue: Boolean);
var
Response: TIdHTTPResponse;
begin
Response := TIdHTTP(Sender).Response;
if IsHeaderMediaType(Response.ContentType, 'application/json') and (Response.Charset = '') then
Response.Charset := 'utf-8';
VContinue := True;
end;
您可以使用 TIdHTTP.Get()
的另一个重载版本来填充输出 TStream
而不是返回 string
。使用 TMemoryStream
或 TStringStream
,您可以使用 UTF-8 自行解码原始字节:
MStrm := TMemoryStream.Create;
try
Web.Get(Url, MStrm);
MStrm.Position := 0;
Sito := ReadStringFromStream(MStrm, IndyTextEncoding_UTF8);
finally
SStrm.Free;
end;
SStrm := TStringStream.Create('', TEncoding.UTF8);
try
Web.Get(Url, SStrm);
Sito := SStrm.DataString;
finally
SStrm.Free;
end;
我在使用 utf8 字符集访问网站时遇到问题,例如,当我尝试访问这个 www
所有 utf8 字符都没有正确编码。 这是我的访问例程:
var
Web : TIdHTTP;
Sito : String;
hIOHand : TIdSSLIOHandlerSocketOpenSSL;
begin
Url := TIdURI.URLEncode(Url);
try
Web := TIdHTTP.Create(nil);
hIOHand := TIdSSLIOHandlerSocketOpenSSL.Create(nil);
hIOHand.DefStringEncoding := IndyTextEncoding_UTF8;
hIOHand.SSLOptions.SSLVersions := [sslvTLSv1,sslvTLSv1_1,sslvTLSv1_2,sslvSSLv2,sslvSSLv3,sslvSSLv23];
Web.IOHandler := hIOHand;
Web.Request.CharSet := 'utf-8';
Web.Request.UserAgent := INET_USERAGENT; //Custom user agent string
Web.RedirectMaximum := INET_REDIRECT_MAX; //Maximum redirects
Web.HandleRedirects := INET_REDIRECT_MAX <> 0; //Handle redirects
Web.ReadTimeOut := INET_TIMEOUT_SECS * 1000; //Read timeout msec
try
Sito := Web.Get(Url);
Web.Disconnect;
except
on e : exception do
Sito := 'ERR: ' +Url+#32+e.Message;
end;
finally
Web.Free;
hIOHand.Free;
end;
我尝试了所有解决方案,但在 Sito var 中我总是发现错误的字符,例如 "name" 的正确值是
"name": "Aire d'adhésion du Parc national du Mercantour",
但是在 Get 指令之后我有
"name": "Aire d'adhésion du Parc national du Mercantour",
你知道我的错误在哪里吗? 谢谢大家!
在 Delphi 2009+(包括 XE6)中,string
是 UTF-16 编码 UnicodeString
.
您正在使用 TIdHTTP.Get()
的重载版本 returns 和 string
。它使用响应报告的任何字符集将发送的文本解码为 UTF-16。如果文本未正确解码,则可能意味着响应未报告正确的字符集。如果使用了错误的字符集,文本将无法正确解码。
所讨论的 URL 实际上是在发送一个设置为 application/json
的响应 Content-Type
header 而根本没有指定 charset
. application/json
的默认字符集是 UTF-8,但 Indy 不知道这一点,所以它最终使用自己的内部默认值,而不是 UTF-8。这就是当存在 non-ASCII 个字符时文本无法正确解码的原因。
在这种情况下,如果您知道字符集将始终为 UTF-8,您可以选择一些解决方法:
您可以通过在
IdGlobal
单元中设置全局GIdDefaultTextEncoding
变量来将 Indy 的默认字符集设置为 UTF-8:GIdDefaultTextEncoding := encUTF8;
您可以使用
TIdHTTP.OnHeadersAvailable
事件将TIdHTTP.Response.Charset
属性更改为'utf-8'
如果它是空白或不正确。Web.OnHeadersAvailable := CheckResponseCharset; ... procedure TMyClass.CheckResponseCharset(Sender: TObject; AHeaders: TIdHeaderList; var VContinue: Boolean); var Response: TIdHTTPResponse; begin Response := TIdHTTP(Sender).Response; if IsHeaderMediaType(Response.ContentType, 'application/json') and (Response.Charset = '') then Response.Charset := 'utf-8'; VContinue := True; end;
您可以使用
TIdHTTP.Get()
的另一个重载版本来填充输出TStream
而不是返回string
。使用TMemoryStream
或TStringStream
,您可以使用 UTF-8 自行解码原始字节:MStrm := TMemoryStream.Create; try Web.Get(Url, MStrm); MStrm.Position := 0; Sito := ReadStringFromStream(MStrm, IndyTextEncoding_UTF8); finally SStrm.Free; end;
SStrm := TStringStream.Create('', TEncoding.UTF8); try Web.Get(Url, SStrm); Sito := SStrm.DataString; finally SStrm.Free; end;