使用 Azure 数据工厂复制并解压缩 .tar 文件
copy and decompress .tar file with Azure Data Factory
我正在尝试将 .tar 文件从 FTP 复制并解压到 Azure Data Lake Store。
.tar 个文件包含 HTML 个文件。在副本activity中,在数据集上,我select压缩类型GZipDeflate,但我想知道我需要使用什么文件格式?是否支持在没有自定义的情况下做这样的事情activity?
很遗憾,数据工厂不支持解压 .tar 文件。 ftp 支持的类型是 GZip、Deflate、BZip2 和 ZipDeflate。 (如此处所示:https://docs.microsoft.com/en-us/azure/data-factory/supported-file-formats-and-compression-codecs#compression-support)。
一种解决方案可能是将文件保存为一种受支持的格式,或者尝试自定义 activity,如此处所述,但我不确定它是用于数据工厂 v1 还是 v2: Import .tar file using Azure Data Factory
希望对您有所帮助!
所以确实没有办法只用 ADF 或 ADL Analytics 解压缩 .tar 文件,但是有一个选项可以从 .tar 文件中的每个文件中提取内容并在 U-SQL 中保存为输出。
我有一个场景,我需要从 .tar 文件中的 html 文件中获取内容,所以我刚刚创建了 html 提取器,它将获取每个 html 文件的流内容在 .tar 文件中并保存在 U-SQL 输出变量中。
也许这可以帮助有类似用例的人。
我使用 SharpCompress.dll 在 c# 中提取和循环 .tar 文件。
我正在尝试将 .tar 文件从 FTP 复制并解压到 Azure Data Lake Store。 .tar 个文件包含 HTML 个文件。在副本activity中,在数据集上,我select压缩类型GZipDeflate,但我想知道我需要使用什么文件格式?是否支持在没有自定义的情况下做这样的事情activity?
很遗憾,数据工厂不支持解压 .tar 文件。 ftp 支持的类型是 GZip、Deflate、BZip2 和 ZipDeflate。 (如此处所示:https://docs.microsoft.com/en-us/azure/data-factory/supported-file-formats-and-compression-codecs#compression-support)。
一种解决方案可能是将文件保存为一种受支持的格式,或者尝试自定义 activity,如此处所述,但我不确定它是用于数据工厂 v1 还是 v2: Import .tar file using Azure Data Factory
希望对您有所帮助!
所以确实没有办法只用 ADF 或 ADL Analytics 解压缩 .tar 文件,但是有一个选项可以从 .tar 文件中的每个文件中提取内容并在 U-SQL 中保存为输出。 我有一个场景,我需要从 .tar 文件中的 html 文件中获取内容,所以我刚刚创建了 html 提取器,它将获取每个 html 文件的流内容在 .tar 文件中并保存在 U-SQL 输出变量中。 也许这可以帮助有类似用例的人。 我使用 SharpCompress.dll 在 c# 中提取和循环 .tar 文件。