U-SQL table 中的聚集索引是否影响并行性？

Does Clustered Index in U-SQL table impact parallelism?

我们正在使用 U-SQL tables 并且有与聚簇索引相关的问题。在 U-SQL table 中，并行性由数据的分区和分布方式管理。聚簇索引是否也会影响 U-SQL table 中的并行性？其次，它如何管理分配桶中的数据倾斜？

聚集索引本身不影响并行性，但如果您使用索引查找或索引扫描读取数据，则可能会影响，具体取决于查询谓词。所以它会影响访问顶点内数据的性能。

数据偏差未得到管理。如果你有偏斜，你将不得不找到更好的分布键，使用偏斜因子提示或使用 ROUND ROBIN 分布。