GET 永远不会完成 url with Umlaut ü
GET never finishes for url with Umlaut ü
GET
抓取此网站失败...为什么?
require(httr)
GET("http://www.atelco.de/1546/Bügeln.search") # Never finishes
GET(URLencode("http://www.atelco.de/1546/Bügeln.search")) # works fine
我试过其他在 URL 中有 ü 的网站:
GET("http://www.bosch-home.com/de/produkte/bügeln.html")
对我来说,它像虫子一样接缝。但我不知道那是什么。我在这里遗漏了什么吗?
我的会话信息是:
R version 3.2.2 (2015-08-14)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
Running under: OS X 10.11.1 (El Capitan)
locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] httr_1.0.0
loaded via a namespace (and not attached):
[1] R6_2.1.1 magrittr_1.5 tools_3.2.2 curl_0.9.4 stringi_1.0-1 stringr_1.0.0 XML_3.98-1.3
您可以通过使用 curl
命令行实用程序测试相同的 URL 轻松排除 R:
curl -Lv http://www.atelco.de/1546/Bügeln.search
这看起来像是服务器端配置问题。它们是 运行 一些自定义 Tomcat/Java Web 应用程序,不断重定向到同一个 URL:
* Connected to www.atelco.de (81.7.220.137) port 80 (#0)
> GET /1546/Bügeln.search HTTP/1.1
> Host: www.atelco.de
> User-Agent: curl/7.43.0
> Accept: */*
>
< HTTP/1.1 302 Moved Temporarily
< Server: Apache-Coyote/1.1
< Set-Cookie: JSESSIONID=46E977E738A6DBC8BD0EB8084912163F.www1; Domain=.atelco.de; Path=/
< Location: http://www.atelco.de/1546/Bügeln.search
< Content-Length: 0
< Date: Wed, 16 Dec 2015 12:17:43 GMT
正如您自己发现的那样,您可以通过转义 URL 来解决该问题,但现在不需要这样做。
GET
抓取此网站失败...为什么?
require(httr)
GET("http://www.atelco.de/1546/Bügeln.search") # Never finishes
GET(URLencode("http://www.atelco.de/1546/Bügeln.search")) # works fine
我试过其他在 URL 中有 ü 的网站:
GET("http://www.bosch-home.com/de/produkte/bügeln.html")
对我来说,它像虫子一样接缝。但我不知道那是什么。我在这里遗漏了什么吗?
我的会话信息是:
R version 3.2.2 (2015-08-14)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
Running under: OS X 10.11.1 (El Capitan)
locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] httr_1.0.0
loaded via a namespace (and not attached):
[1] R6_2.1.1 magrittr_1.5 tools_3.2.2 curl_0.9.4 stringi_1.0-1 stringr_1.0.0 XML_3.98-1.3
您可以通过使用 curl
命令行实用程序测试相同的 URL 轻松排除 R:
curl -Lv http://www.atelco.de/1546/Bügeln.search
这看起来像是服务器端配置问题。它们是 运行 一些自定义 Tomcat/Java Web 应用程序,不断重定向到同一个 URL:
* Connected to www.atelco.de (81.7.220.137) port 80 (#0)
> GET /1546/Bügeln.search HTTP/1.1
> Host: www.atelco.de
> User-Agent: curl/7.43.0
> Accept: */*
>
< HTTP/1.1 302 Moved Temporarily
< Server: Apache-Coyote/1.1
< Set-Cookie: JSESSIONID=46E977E738A6DBC8BD0EB8084912163F.www1; Domain=.atelco.de; Path=/
< Location: http://www.atelco.de/1546/Bügeln.search
< Content-Length: 0
< Date: Wed, 16 Dec 2015 12:17:43 GMT
正如您自己发现的那样,您可以通过转义 URL 来解决该问题,但现在不需要这样做。