yahoo finance 是否禁止 web scrapy?
Does yahoo finance ban web scrapy or not?
yahoo robots.txt中的robots.txt说:
User-agent: *
Sitemap: https://finance.yahoo.com/sitemap_en-us_desktop_index.xml
Sitemap: https://finance.yahoo.com/sitemaps/finance-sitemap_index_US_en-US.xml.gz
Disallow: /r/
Disallow: /__rapidworker-1.2.js
Disallow: /__blank
Disallow: /_td_api
Disallow: /_remote
yahoo finance 是否禁止 web scrapy?
雅虎财经网站不允许什么?
我们可以从 yahoo 的 robots.txt 文件中推断出什么?
robots.txt
文件中没有任何内容明确禁止您抓取雅虎财经,但雅虎财经受 Yahoo's Terms of Service.
管辖
本文档最相关的部分基本上说您不应该做任何会干扰他们的服务的事情。实际上,这意味着如果您打算从 Yahoo Finance 中抓取数据,您应该负责任地这样做(请求不要太多,因为这很快会让您被禁止)。
也就是说,网络抓取通常效率低下(因为您重新加载整个 HTML 页面只是为了以编程方式收集数据)。我会考虑使用 API 而不是 (),因为这将 a) 更可靠 b) 更快 c) 绝对合法。
他们并没有禁止,但我的 scraper 每 30 秒就有数百家公司,从那以后,他们的网站一直在改变格式。我还注意到了一些新东西,他们实际上会通过用 N/A 替换一些变量并误导你的程序来阻止你的路由器 IP 一点点,所以他们没有声明他们不允许它但他们肯定不会就像你那样做。所以我只是说要偷偷摸摸。
yahoo robots.txt中的robots.txt说:
User-agent: *
Sitemap: https://finance.yahoo.com/sitemap_en-us_desktop_index.xml
Sitemap: https://finance.yahoo.com/sitemaps/finance-sitemap_index_US_en-US.xml.gz
Disallow: /r/
Disallow: /__rapidworker-1.2.js
Disallow: /__blank
Disallow: /_td_api
Disallow: /_remote
yahoo finance 是否禁止 web scrapy?
雅虎财经网站不允许什么?
我们可以从 yahoo 的 robots.txt 文件中推断出什么?
robots.txt
文件中没有任何内容明确禁止您抓取雅虎财经,但雅虎财经受 Yahoo's Terms of Service.
本文档最相关的部分基本上说您不应该做任何会干扰他们的服务的事情。实际上,这意味着如果您打算从 Yahoo Finance 中抓取数据,您应该负责任地这样做(请求不要太多,因为这很快会让您被禁止)。
也就是说,网络抓取通常效率低下(因为您重新加载整个 HTML 页面只是为了以编程方式收集数据)。我会考虑使用 API 而不是 (
他们并没有禁止,但我的 scraper 每 30 秒就有数百家公司,从那以后,他们的网站一直在改变格式。我还注意到了一些新东西,他们实际上会通过用 N/A 替换一些变量并误导你的程序来阻止你的路由器 IP 一点点,所以他们没有声明他们不允许它但他们肯定不会就像你那样做。所以我只是说要偷偷摸摸。