Http get/post 进入数据流

Http get/post into dataflow

我正在尝试将一些数据放入数据流中,但数据不在云存储中 - 它是一个 rss 提要,我通常每 x 小时检查一次。有没有办法直接使用 SDK 来完成,还是我必须先通过其他方式将文件放到云存储中。

提前致谢。

Dataflow 不提供 RSS 提要的来源。

您可以从 ParDo 发出 HTTP 请求来获取数据。例如,假设提要允许您在某个时间范围内获取消息。然后您可以创建一个输入集合,其中每条记录代表一个时间范围(例如一个小时)。然后您可以编写一个 ParDo 来获取该时间范围内的消息并发出它们。

如果您参与了流式抢先体验预览,那么 一种解决方案是编写一个 App Engine 应用程序(或等效应用程序),每隔 X 小时检查一次 RSS 提要,然后使用 Google Cloud PubSub 发布数据。然后,您可以使用 PubSubIO 在 Dataflow 中读取这些事件。