snowflake Copy Into parallel Parquet File 加载

Question

如何在 table 中使用 COPY INTO 加载 5 年的 Parquet 数据？因为 1 个月的负载需要我 1.5 小时，5 年将花费我 90 小时。是否有可能并行加载？我该怎么做？

代码为1个月

COPY INTO "PUBLIC"."MYTABLE" ("One_Month_Transactions") FROM SELECT (:"One_Month_Transactions" @my_azure_stage/data201601);

谢谢

Answer 1

获取您拥有的文件数量（希望它们在很多很多文件中）并调整您的仓库大小以在单个 COPY INTO 语句中加载它们。假设您为单个 COPY INTO 语句指定一个仓库，它将能够为每个节点并行加载 8 个文件。 1 个节点是 XS，2 个是 S，4 个是 Medium，从那里加倍。

如果您每 1 个月提供一些文件，您使用了多大的仓库，那么我可以帮助您更准确地确定大小，但关键是在 1 个 COPY INTO 语句中完成这一切...然后做8 files/node * 每个大小的节点数。

snowflake Copy Into parallel Parquet File load