如何在 Microsoft Azure 中使用 Python 自动预处理复杂文本文件?

How do I automate preprocessing of a complex text file with Python in Microsoft Azure?

我有一个复杂的文本文件,Python 可以将其处理成 pandas 数据框。 您知道我可以部署此脚本的哪些 Azure 服务,以便在文件上传到 blob 存储时自动触发?

我知道这是一个很复杂的问题,但我已经尝试过一些方法,比如只使用 Azure Functions、将 Azure Functions 与 Azure Batch Job 结合使用以及使用 Azure Data Factory。

是否有任何 Azure 服务可以直接完成此任务?

Complex text file that can be processed into a pandas Dataframe by Python

您可以使用 Azure Databricks 预处理复杂的文本文件。

To automatically trigger whenever a file is uploaded to a blob storage

在 Azure Databricks 上装载 blob 存储。考虑这个 sample notebook 来装载 blob 存储。

To automate preprocessing Use databricks notebook activity in Data Factory.

在数据工厂中,只要在 Blob 存储中上传新文件,您就可以使用 Event based trigger 到 运行 databricks notebook activity。