从 azure 数据湖读取 parquet 文件数据到 Excel 存储在 SharePoint Online 中
Read parquet file data from azure data lake to Excel stored in SharePoint Online
我们有以下要求将数据提取到 Excel 文件中。
- 从存储在 azure data lake storage gen2 中的 parquet 文件中查询数据
- 将数据提取到 Excel 文件
- 将 Excel 文件存储在 SharePoint Online 中
实现这个的最佳方法是什么?实施服务器端 CSOM 或其他 Azure 工具会更好吗?
非常感谢您的帮助。
我可能会这样处理(组件很少,但自定义代码量最少)
流量
- 使用逻辑应用将 parquet 文件复制到 Azure Data Lake(或 blob)存储并触发数据工厂管道
- 数据工厂管道执行 Databricks Python 或 Scala 笔记本(两者都可以将数据保存到 Excel)作为输出
- 使用 Logic App 将 Excel 传回 SharePoint
因为
- 逻辑应用程序 非常适合 SharePoint 操作任务编排。
- 数据工厂 很好地编排数据块笔记本执行。
- Databricks 可以轻松读取 Parquets,并且可以轻松地将数据保存为 Excel 文件,因此它似乎是完美的选择。
虽然在最佳情况下您需要使用 3 个组件,但只需不到 10 行代码即可完成您需要的操作。休息只是 'clicking'.
您可能会跳过数据工厂并使用逻辑应用程序通过 REST api 调用 Databricks,但是既然有开箱即用的组件可以做到这一点,为什么还要费心呢。
我们有以下要求将数据提取到 Excel 文件中。
- 从存储在 azure data lake storage gen2 中的 parquet 文件中查询数据
- 将数据提取到 Excel 文件
- 将 Excel 文件存储在 SharePoint Online 中
实现这个的最佳方法是什么?实施服务器端 CSOM 或其他 Azure 工具会更好吗?
非常感谢您的帮助。
我可能会这样处理(组件很少,但自定义代码量最少)
流量
- 使用逻辑应用将 parquet 文件复制到 Azure Data Lake(或 blob)存储并触发数据工厂管道
- 数据工厂管道执行 Databricks Python 或 Scala 笔记本(两者都可以将数据保存到 Excel)作为输出
- 使用 Logic App 将 Excel 传回 SharePoint
因为
- 逻辑应用程序 非常适合 SharePoint 操作任务编排。
- 数据工厂 很好地编排数据块笔记本执行。
- Databricks 可以轻松读取 Parquets,并且可以轻松地将数据保存为 Excel 文件,因此它似乎是完美的选择。
虽然在最佳情况下您需要使用 3 个组件,但只需不到 10 行代码即可完成您需要的操作。休息只是 'clicking'.
您可能会跳过数据工厂并使用逻辑应用程序通过 REST api 调用 Databricks,但是既然有开箱即用的组件可以做到这一点,为什么还要费心呢。