建议使用哪些托管数据服务定期将数据从 Rest API 导入云存储(加密)
What managed data services are recommended for importing data from Rest API to cloud storage on regular schedule (crypto)
Objective: 我想要一种易于管理的方式将数据从 REST API 提取到像 BigQuery 或类似的云存储中。
具体来说: 有许多像 Glassnode 这样的专注于加密的 API,我想通过以下方式提取数据:
- 完全回填(历史上过去 X 个月)
- 按要求的时间分辨率(例如每小时或每天)
- 定期增量添加新数据(与上面的#2 相同)
我遇到了一些看起来令人鼓舞的服务。
- Precog(具有我感兴趣的 API 的预构建连接器。尚未试用产品)
- Azure Data Factory
但我想问问大家,对于上述用例,最多 common/recommended 数据摄取服务是什么?
我很乐意为这项服务付费。而且我会优先考虑最小化管理数据摄取管道的开销而不是成本。
提前感谢您的任何反馈/建议。
Azure 数据工厂将为此工作。我想说你的决定的一部分应该基于你之后想对数据做什么。例如,如果您知道要将数据放在 GCP 中,我可能会倾向于在 Google Cloud 中运行的 ETL 工具。 Azure 数据工厂在 Azure 中运行。如果您使用 public 端点将数据从 API 登陆到 blob 存储中,则它是一种托管 PaaS 服务,不需要额外的 VM。在 ADF 中,您可以安排事情 hourly/daily/whatever 并参数化您的 API 调用以在 API 调用中过滤日期。
如果您使用 ADF,需要注意以下几点:查看启动托管 Spark 集群以执行转换的 differences between the HTTP and REST connectors. Also, if your API call returns a JSON file, think about what you want to use to parse that. ADF has dataflows。这会奏效,但如果没有有效地完成,它可能会很昂贵。
我对 Precog 不熟悉。如果我在 Azure 中执行此操作,我可能会采用的另一种方法是使用 Azure Functions 执行 API 调用。您也可以使用 Databricks 来执行此操作。或者,您可以使用 Databricks 调用您的 Azure Functions,然后为您的转换步骤编写 python 或 Spark SQL。
在 AWS 或 GCP 中,您还可以查看 Matillion。 AWS 中的其他常见选项包括 Datameer 和 Stitch (Talend)。我对它们不够熟悉,无法知道您所问的问题在这些工具中是否容易。
Objective: 我想要一种易于管理的方式将数据从 REST API 提取到像 BigQuery 或类似的云存储中。
具体来说: 有许多像 Glassnode 这样的专注于加密的 API,我想通过以下方式提取数据:
- 完全回填(历史上过去 X 个月)
- 按要求的时间分辨率(例如每小时或每天)
- 定期增量添加新数据(与上面的#2 相同)
我遇到了一些看起来令人鼓舞的服务。
- Precog(具有我感兴趣的 API 的预构建连接器。尚未试用产品)
- Azure Data Factory
但我想问问大家,对于上述用例,最多 common/recommended 数据摄取服务是什么?
我很乐意为这项服务付费。而且我会优先考虑最小化管理数据摄取管道的开销而不是成本。
提前感谢您的任何反馈/建议。
Azure 数据工厂将为此工作。我想说你的决定的一部分应该基于你之后想对数据做什么。例如,如果您知道要将数据放在 GCP 中,我可能会倾向于在 Google Cloud 中运行的 ETL 工具。 Azure 数据工厂在 Azure 中运行。如果您使用 public 端点将数据从 API 登陆到 blob 存储中,则它是一种托管 PaaS 服务,不需要额外的 VM。在 ADF 中,您可以安排事情 hourly/daily/whatever 并参数化您的 API 调用以在 API 调用中过滤日期。 如果您使用 ADF,需要注意以下几点:查看启动托管 Spark 集群以执行转换的 differences between the HTTP and REST connectors. Also, if your API call returns a JSON file, think about what you want to use to parse that. ADF has dataflows。这会奏效,但如果没有有效地完成,它可能会很昂贵。
我对 Precog 不熟悉。如果我在 Azure 中执行此操作,我可能会采用的另一种方法是使用 Azure Functions 执行 API 调用。您也可以使用 Databricks 来执行此操作。或者,您可以使用 Databricks 调用您的 Azure Functions,然后为您的转换步骤编写 python 或 Spark SQL。
在 AWS 或 GCP 中,您还可以查看 Matillion。 AWS 中的其他常见选项包括 Datameer 和 Stitch (Talend)。我对它们不够熟悉,无法知道您所问的问题在这些工具中是否容易。