使用 Cloud Data Fusion 将数据从 SFTP 提取到 GCS 或 BigQuery 时出错

Error while Data Ingestion from SFTP to GCS or BigQuery using Cloud Data Fusion

我正在尝试使用 Data Fusion 将 SFTP 文件夹中的 CSV 文件移动到 GCS。但我无法做到并抛出以下错误:

这里是 FTP 和 GCS 插件的属性。令人惊讶的是,我可以在所有阶段看到预览模式下的数据,但是当我尝试部署管道时它失败了。我尝试在源 (FTP) 和接收器 (GCS) 之间使用 CSVParser 和 TRANSFORM。它仍然显示相同的错误。我在 Hub 中使用 3.0.0 版的 FTP 插件。请帮我解决一下。

错误如下,当我尝试部署管道时,即使预览数据我也能看到数据。

好吧,我对此进行了很多研究,我发现此插件在 运行 ftp-plugins 时存在问题,因此目前您无能为力。幸运的是,有解决方法。仅举几例:

  • 您可以使用旧版本(Dataproc 图像为 1.5/1.3),如 public 案例中所示,该案例也引用了此问题。有关此案例的更多详细信息,您可以查看 link 问题 SFTP Source fails when deployed (SftpExecption) but not in preview。别忘了点赞和留言。

  • 另一种方法是使用 SFTPCopy 插件(从集线器获取后,它应该出现在 Conditions and Actions 下)。因此,您将能够从 SFTP 将文件提取到本地路径,并使用 Source FILE 继续处理您的文件。 Reading from SFTP and writing to BigQuery

    上有一个小指南
  • 这个有点极端,但您也可以使用不同的工作流管理平台,例如 airflow 来处理文件。

我通过在 Data Fusion 中将流水线执行引擎从 SPARK 更改为 MAPREDUCE 解决了这个问题。现在可以使用了。