gzip 文件是否会在 Data Lake Analytics 中使用多个 AU?
Will gzip'd files use multiple AU's in DataLake Analytics?
在 EXTRACT 文档中有对 gzip 文件(我们正在使用的)的(很棒的)自动魔术支持。
但是我应该假设它不会使用多个 AU 吗?好像我理解正确,文件需要 "splitable" 才能跨 AU 传播?
或者它是否会在 AU 中拆分,一旦被即时提取和/或 gzip 文件是否有一个索引来指示它们可以以某种方式拆分的位置?
或者我可能混淆了 AU 的顶点概念?
这是个好问题:)。
一般来说,如果文件格式是可拆分的(例如,基本上是面向行的,行小于行大小限制,目前为 4MB),那么大文件将被拆分为每个顶点 1GB。
但是,GZip 本身不是可拆分格式。因此我们不能在解压过程中拆分 GZip 文件,我们最终也不会拆分解压缩文件的处理(当前框架不提供此功能)。因此,我们将 GZip 文件的大小限制为 4GB。如果你想用GZip文件横向扩展,我们建议将数据拆分成几个GZip文件,然后使用文件集来横向扩展处理。
在 EXTRACT 文档中有对 gzip 文件(我们正在使用的)的(很棒的)自动魔术支持。
但是我应该假设它不会使用多个 AU 吗?好像我理解正确,文件需要 "splitable" 才能跨 AU 传播?
或者它是否会在 AU 中拆分,一旦被即时提取和/或 gzip 文件是否有一个索引来指示它们可以以某种方式拆分的位置?
或者我可能混淆了 AU 的顶点概念?
这是个好问题:)。
一般来说,如果文件格式是可拆分的(例如,基本上是面向行的,行小于行大小限制,目前为 4MB),那么大文件将被拆分为每个顶点 1GB。
但是,GZip 本身不是可拆分格式。因此我们不能在解压过程中拆分 GZip 文件,我们最终也不会拆分解压缩文件的处理(当前框架不提供此功能)。因此,我们将 GZip 文件的大小限制为 4GB。如果你想用GZip文件横向扩展,我们建议将数据拆分成几个GZip文件,然后使用文件集来横向扩展处理。