从 Microsoft Azure 中提取 JSON 文档并推送到 Kafka 的最佳方法是什么?

Whats is the best way to pull JSON Documents from Microsoft Azure and push into Kafka?

我有大约 150 TB 的 JSON 文档存储在我的个人 windows 驱动程序中。我正在将这些驱动程序移动到 Microsoft Azure 存储帐户。我想在 Kafka 上提取 JSON 数据和 post 数据。我想从 Kafka 使用 Kafka-couch 连接器推送到 Couchbase。最好的方法和程序是什么? (牢记数据复制)

Azure ---> Kafka ---> Couchbase

或 Azure ---> Couchbase。

或 Windows 驱动程序 ---> Couchbase

根据你的需求,我给你提供两种选择。

第一个选项,您可以在其中创建自己的程序以从 Azure Blob 存储获取数据并将数据推送到 Kafka.You 可以在 Azure Web 中使用 WebJob 到 运行应用服务。

这个选项比较耗时,但成本较低。 您可以参考下面的代码片段或通过 java 从 here.

获取更多有关将数据推送到 kafka 的详细信息

第二个选项,您可以使用 Azure HDInsight 服务并按照 official document 通过语法访问存储在 Azure Blob 存储中的数据: wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path>.

然后,请在此site上下载HDFS (Sink)连接器,以将Json数据从HDInsight推送到Kafka。

此选项可以节省时间,但成本更高。

您也可以参考SO线程,根据您的需要选择两个选项中的一个即可。

希望对你有帮助。