U-SQL table 中的聚集索引是否影响并行性?

Does Clustered Index in U-SQL table impact parallelism?

我们正在使用 U-SQL tables 并且有与聚簇索引相关的问题。在 U-SQL table 中,并行性由数据的分区和分布方式管理。聚簇索引是否也会影响 U-SQL table 中的并行性?其次,它如何管理分配桶中的数据倾斜?

聚集索引本身不影响并行性,但如果您使用索引查找或索引扫描读取数据,则可能会影响,具体取决于查询谓词。所以它会影响访问顶点内数据的性能。

数据偏差未得到管理。如果你有偏斜,你将不得不找到更好的分布键,使用偏斜因子提示或使用 ROUND ROBIN 分布。