可以将 .zip 文件与多个 .csv 文件一起使用吗?
Possible to use .zip file with multiple .csv files?
是否可以使用 U-SQL 解压缩包含多个 .csv 文件的 zip 文件夹并处理它们?
每个文件都有不同的架构。
所以你这里有两个问题。
- 从 ZIP 文件中提取。
- 处理内部变化的内容。
回答你的问题。可以吗?... 可以.
怎么做?...您需要编写一个用户定义的提取器才能做到这一点。
首先查看 MSDN 提取器页面:
https://msdn.microsoft.com/en-us/library/azure/mt621320.aspx
提取器的 class 需要使用迭代存档内容的方法从 IExtractor 继承。
然后依次输出每个内部文件,将文件名传递给提取器,以便您可以为每个数据集定义列。
来源:https://ryansimpson.net/2016/10/15/query-zipfile-adla/
另一种选择是使用 Azure 数据工厂在自定义 activity 中执行解压缩操作并将 CSV 内容输出到 ADL 存储。不过,这将涉及更多工程和 Azure Batch 服务。
希望这对您有所帮助。
是否可以使用 U-SQL 解压缩包含多个 .csv 文件的 zip 文件夹并处理它们?
每个文件都有不同的架构。
所以你这里有两个问题。
- 从 ZIP 文件中提取。
- 处理内部变化的内容。
回答你的问题。可以吗?... 可以.
怎么做?...您需要编写一个用户定义的提取器才能做到这一点。
首先查看 MSDN 提取器页面:
https://msdn.microsoft.com/en-us/library/azure/mt621320.aspx
提取器的 class 需要使用迭代存档内容的方法从 IExtractor 继承。
然后依次输出每个内部文件,将文件名传递给提取器,以便您可以为每个数据集定义列。
来源:https://ryansimpson.net/2016/10/15/query-zipfile-adla/
另一种选择是使用 Azure 数据工厂在自定义 activity 中执行解压缩操作并将 CSV 内容输出到 ADL 存储。不过,这将涉及更多工程和 Azure Batch 服务。
希望这对您有所帮助。