无法在 StreamSets 数据收集器中从 Google 云平台读取数据

Not able to read data from Google Cloud Platform in StreamSets Data Collector

我正在尝试在 StreamSets 数据收集器中创建一个管道,以从 Google Cloud Platform 存储桶中读取数据,并将数据加载到具有不同文件名的同一存储桶中。

桶中的数据文件为JSON格式。

我在 StreamSets 数据收集器中使用了 Google 云存储源并提供了以下属性:

有人可以更正或提供任何替代选项吗?

这在 Common Prefix, Prefix Pattern, and Wildcards 中有记载。

  • 公共前缀是你要读取的所有文件的公共路径
  • 前缀模式 包含指定要读取的文件的通配符

这些都不应该包含存储桶名称(因为它是单独配置的)或协议。在你的情况下,看起来你可以使用类似的东西:

  • 常用前缀:/
  • 前缀模式:*.json(或与您的文件匹配的其他一些通配符)