snowflake Copy Into parallel Parquet File 加载

snowflake Copy Into parallel Parquet File load

如何在 table 中使用 COPY INTO 加载 5 年的 Parquet 数据?因为 1 个月的负载需要我 1.5 小时,5 年将花费我 90 小时。是否有可能并行加载?我该怎么做?

代码为1个月

COPY INTO "PUBLIC"."MYTABLE" ("One_Month_Transactions") FROM SELECT (:"One_Month_Transactions" @my_azure_stage/data201601);

谢谢

获取您拥有的文件数量(希望它们在很多很多文件中)并调整您的仓库大小以在单个 COPY INTO 语句中加载它们。假设您为单个 COPY INTO 语句指定一个仓库,它将能够为每个节点并行加载 8 个文件。 1 个节点是 XS,2 个是 S,4 个是 Medium,从那里加倍。

如果您每 1 个月提供一些文件,您使用了多大的仓库,那么我可以帮助您更准确地确定大小,但关键是在 1 个 COPY INTO 语句中完成这一切...然后做8 files/node * 每个大小的节点数。