连续 WebScrape YouTube 可以吗?

Is it OK to WebScrape YouTube CONTINUOUSLY?

我制作了一个简单的网络抓取工具(python,selenium),用于抓取 YouTube 直播的 LiveChat。我想每秒抓取一次,但我听到有人提到抓取 >5/秒违反了 YT 的服务条款。 (我是创作者,不想因此惹上麻烦)

我查看了他们的 TOS,但找不到任何相关信息。有没有人对此有经验/了解?

提前致谢。

我相信只要您不向 youtube 发送垃圾邮件,您就可以开始了。

但他们可能会检测到您的 activity 并阻止您的 IP。但总有一个冷静期,所以我想你应该不会太在意。

也因为你实际上并没有插入任何东西,只是提取文本,尝试在两者之间放置一些 sleep() 这样 Youtube 机器人就很难检测到你的 activity。

我不是律师或网络爬虫。 关于 YouTube 的 TOS,在德语版本中(我不知道如何用英语访问它,但它们应该是相同的)在“权限和限制”点下声明您是不允许的:

  1. To access the service with automated processes (e.g. robots, botnets or scrapers), with the exception of (a) via public search engines according to YouTube's Robots.txt file, (b) with prior approval by YouTube in text form or (c) to the extent permitted by applicable law.

(Google-已翻译)

因此,仅使用 Scraper 就违反了 TOS。

我什至不知道你是否不需要在某个时候解决验证码问题,因为很多 google-服务在后台都有它 运行(见 reCAPTCHA v3 ).