Azure/Databricks - 获取数据的最佳方式?

Azure/Databricks - Best way to ingest data?

我是 Azure 和 Databricks 的新手。我一直在观看培训视频并且确实有 AWS 的云体验。但是我正在 c运行ch 上,所以我们将不胜感激。我有多个数据源,我需要将实时数据(通过 API calls/database 连接)摄取到 Azure 和 Databricks 中的 运行 transformations/ML 中。我可能需要将清理后的数据帧输出到具有 BI 连接的 DW 或 sql 数据库中。如果有 Azure Databricks 经验的人可以帮助推荐我需要的产品,那就太好了。请注意,这不是 'big data'(最多只有 100,000 行),但需要计算能力才能快速 运行 ML (NLP)。

1. ELT/ETL - Should I go Datafactory -> Databricks. Or maybe Kafka -> blob storage -> Databricks?
2. Recommended worker type size for live data processing / NLP application? 

项目刚开始时,最简单的方法就是在 Databricks 中编写笔记本并连接到源并将数据加载到 dbfs 存储,而不是在 Databricks(ML 等)中再次处理该数据。

如果它是小型数据集,只需最简单的 1 个工作人员 + driver。

将来您可以随时升级工作器类型并通过数据工厂设置为 运行 notebooks 作业。

在现代数据处理中,始终推荐使用 ELT 方法,而不是 ETL。数据应该在转化为业务用例之前登陆数据湖。在任何基于分布式系统的工具中,这始终是推荐的模式。您可以参考 link