从 Twitter 中提取(可能)大量数据的方法
Ways to pull (potentially) large amounts of data from Twitter
我一直在玩 Twitter API 使用 Twitter4j。我正在尝试在给定关键字和日期的情况下提取数据,我将 运行 使用 REST API 的查询示例将是
bagels since:2014-12-27
这会给我所有自 2014 年 12 月 27 日以来包含关键字 'bagels' 的推文。
这在理论上可行,但我很快就超过了 rate limits,因为每个查询最多允许 100 个结果,并且在 15 分钟的间隔内只允许 180 个查询。有很多关键字 return 超过 18k 个结果。
是否有更好的方法从 Twitter 中提取大量数据?我查看了 Streaming API,但我不知道是否可以从特定日期范围内提取数据。
您可以采取一些措施来提高费率:
- 确保您的计数上限为 100,看起来您正在这样做。
- 使用仅限应用程序授权 - 它将您的速率限制提高到 450。
- 使用 max_id、since_id 参数翻阅数据并避免查询您已收到的结果。请参阅 Working with Timelines 文档了解我的意思。
- 如果您愿意为移除速率限制付费,请考虑使用 Gnip。
我一直在玩 Twitter API 使用 Twitter4j。我正在尝试在给定关键字和日期的情况下提取数据,我将 运行 使用 REST API 的查询示例将是
bagels since:2014-12-27
这会给我所有自 2014 年 12 月 27 日以来包含关键字 'bagels' 的推文。
这在理论上可行,但我很快就超过了 rate limits,因为每个查询最多允许 100 个结果,并且在 15 分钟的间隔内只允许 180 个查询。有很多关键字 return 超过 18k 个结果。
是否有更好的方法从 Twitter 中提取大量数据?我查看了 Streaming API,但我不知道是否可以从特定日期范围内提取数据。
您可以采取一些措施来提高费率:
- 确保您的计数上限为 100,看起来您正在这样做。
- 使用仅限应用程序授权 - 它将您的速率限制提高到 450。
- 使用 max_id、since_id 参数翻阅数据并避免查询您已收到的结果。请参阅 Working with Timelines 文档了解我的意思。
- 如果您愿意为移除速率限制付费,请考虑使用 Gnip。