如何使用 Python Multiprocessing 与 YouTube API 进行抓取

How to use Python Multiprocessing with YouTube API for crawling

我仍然是 python 的新手，现在使用多处理对我来说是一项艰巨的任务。

所以我的问题是，如何在使用多处理的同时使用 YouTube API 加速抓取 YouTube 的评论部分？

这个项目是在有限的时间内抓取 100000++ 个视频以征求他们的评论。我知道 multiprocessing 用于正常的抓取方法，例如 BeautifulSoup/Scrapy，但是当我使用 YouTube API 时呢？

如果我使用 YouTube API（需要 API 键）来抓取数据，多处理是否能够使用多个键来完成这项工作，还是会反复使用同一个键为不同的任务重新开始？

为了简化，是否可以在代码 中使用 multiprocessing， 使用 API keys而不是不需要 API 键的正常抓取方法?

有人知道吗？

这不会直接回答您的问题，但我建议您查看 YouTube API 配额：

https://developers.google.com/youtube/v3/getting-started#calculating-quota-usage

默认情况下，您的项目每天只有 10,000 个单位的配额，检索评论的费用为每条评论 1 到 5 个单位（如果您想要它们所附加的视频数据，请再添加 21 个单位每个视频）。实际上，您每天只能通过 API 检索 2000 条评论，而无需提出增加配额的请求，这可能需要数周时间。

编辑：Google 将针对给定请求以您选择的语言为您填充代码。我建议根据您的请求在此处填写表格，并将其作为起点：https://developers.google.com/youtube/v3/docs/comments/list (点击"Populate APIs Explorer" -> "See Code Samples" -> 在左侧输入更多信息)

如何使用 Python Multiprocessing 与 YouTube API 进行抓取

How to use Python Multiprocessing with YouTube API for crawling

python

youtube

multiprocess

youtube-data-api

python-multiprocessing