GCP Datafusion 重复来自 GCS 的相同数据

GCP Datafusion repeating same data from GCS

我有一个从存储中读取 20 个文件并从中提取每个文件的路径并加载到 table 的管道。理想情况下,记录数应为 20,但当我执行管道时,同一条记录一次又一次地传输,使总记录数无限增加。我想知道我是否在这里犯了任何错误。

我刚刚复制了这个问题。我的猜测是您在 BigQuery 中为文件中的每条记录插入一条记录。例如,如果您选择 Blob 格式,那么每个文件将只有一条记录。