Azure Synapse 加载:将大型压缩文件拆分为较小的压缩文件

Azure Synapse loading: Split large compress files to smaller compressed files

我收到了 Azure Synapse 的推荐。

推荐详情 我们检测到您可以通过拆分存储帐户中暂存的压缩文件来提高负载吞吐量。一个好的经验法则是将压缩文件分成 60 个或更多,以最大限度地提高负载的并行性。 Learn more

查看 Azure 的文档,这是建议。

Preparing data in Azure Storage
To minimize latency, colocate your storage layer and your SQL pool.

When exporting data into an ORC File Format, you might get Java out-of-memory errors when there are large text columns. To work around this limitation, export only a subset of the columns.

All file formats have different performance characteristics. For the fastest load, use compressed delimited text files. The difference between UTF-8 and UTF-16 performance is minimal.

Split large compressed files into smaller compressed files.

我想了解的是如何将大型压缩文件拆分为较小的压缩文件?有选择吗?谢谢!

您可以查看这篇文章 How to maximize COPY load throughput with file splits

建议使用 COPY 语句通过 SQL 池一次加载多个文件以进行并行处理和最大化批量加载性能。

File-splitting 指南在下面 documentation 中进行了概述,此博客介绍了如何使用 Azure 数据工厂映射数据流在数据管道中轻松拆分驻留在数据湖中的 CSV 文件。