gzip 文件是否会在 Data Lake Analytics 中使用多个 AU？

Will gzip'd files use multiple AU's in DataLake Analytics?

在 EXTRACT 文档中有对 gzip 文件（我们正在使用的）的（很棒的）自动魔术支持。

但是我应该假设它不会使用多个 AU 吗？好像我理解正确，文件需要 "splitable" 才能跨 AU 传播？

或者它是否会在 AU 中拆分，一旦被即时提取和/或 gzip 文件是否有一个索引来指示它们可以以某种方式拆分的位置？

或者我可能混淆了 AU 的顶点概念？

这是个好问题:)。

一般来说，如果文件格式是可拆分的（例如，基本上是面向行的，行小于行大小限制，目前为 4MB），那么大文件将被拆分为每个顶点 1GB。

但是，GZip 本身不是可拆分格式。因此我们不能在解压过程中拆分 GZip 文件，我们最终也不会拆分解压缩文件的处理（当前框架不提供此功能）。因此，我们将 GZip 文件的大小限制为 4GB。如果你想用GZip文件横向扩展，我们建议将数据拆分成几个GZip文件，然后使用文件集来横向扩展处理。