如何使用 Python Multiprocessing 与 YouTube API 进行抓取

How to use Python Multiprocessing with YouTube API for crawling

我仍然是 python 的新手,现在使用多处理对我来说是一项艰巨的任务。

所以我的问题是,如何在使用多处理的同时使用 YouTube API 加速抓取 YouTube 的评论部分?

这个项目是在有限的时间内抓取 100000++ 个视频以征求他们的评论。我知道 multiprocessing 用于正常的抓取方法,例如 BeautifulSoup/Scrapy,但是当我使用 YouTube API 时呢?

如果我使用 YouTube API(需要 API 键)来抓取数据,多处理是否能够使用多个键来完成这项工作,还是会反复使用同一个键为不同的任务重新开始?

为了简化,是否可以在代码 中使用 multiprocessing 使用 API keys而不是不需要 API 键的正常抓取方法?

有人知道吗?

这不会直接回答您的问题,但我建议您查看 YouTube API 配额:

https://developers.google.com/youtube/v3/getting-started#calculating-quota-usage

默认情况下,您的项目每天只有 10,000 个单位的配额,检索评论的费用为每条评论 1 到 5 个单位(如果您想要它们所附加的视频数据,请再添加 21 个单位每个视频)。实际上,您每天只能通过 API 检索 2000 条评论,而无需提出增加配额的请求,这可能需要数周时间。

编辑:Google 将针对给定请求以您选择的语言为您填充代码。我建议根据您的请求在此处填写表格,并将其作为起点:https://developers.google.com/youtube/v3/docs/comments/list (点击"Populate APIs Explorer" -> "See Code Samples" -> 在左侧输入更多信息)