使用 Cloud Data Fusion 将数据从 SFTP 提取到 GCS 或 BigQuery 时出错
Error while Data Ingestion from SFTP to GCS or BigQuery using Cloud Data Fusion
我正在尝试使用 Data Fusion 将 SFTP 文件夹中的 CSV 文件移动到 GCS。但我无法做到并抛出以下错误:
这里是 FTP 和 GCS 插件的属性。令人惊讶的是,我可以在所有阶段看到预览模式下的数据,但是当我尝试部署管道时它失败了。我尝试在源 (FTP) 和接收器 (GCS) 之间使用 CSVParser 和 TRANSFORM。它仍然显示相同的错误。我在 Hub 中使用 3.0.0 版的 FTP 插件。请帮我解决一下。
错误如下,当我尝试部署管道时,即使预览数据我也能看到数据。
好吧,我对此进行了很多研究,我发现此插件在 运行 ftp-plugins 时存在问题,因此目前您无能为力。幸运的是,有解决方法。仅举几例:
您可以使用旧版本(Dataproc 图像为 1.5/1.3),如 public 案例中所示,该案例也引用了此问题。有关此案例的更多详细信息,您可以查看 link 问题 SFTP Source fails when deployed (SftpExecption) but not in preview。别忘了点赞和留言。
另一种方法是使用 SFTPCopy
插件(从集线器获取后,它应该出现在 Conditions and Actions
下)。因此,您将能够从 SFTP 将文件提取到本地路径,并使用 Source FILE
继续处理您的文件。 Reading from SFTP and writing to BigQuery
上有一个小指南
这个有点极端,但您也可以使用不同的工作流管理平台,例如 airflow 来处理文件。
我通过在 Data Fusion 中将流水线执行引擎从 SPARK 更改为 MAPREDUCE 解决了这个问题。现在可以使用了。
我正在尝试使用 Data Fusion 将 SFTP 文件夹中的 CSV 文件移动到 GCS。但我无法做到并抛出以下错误:
这里是 FTP 和 GCS 插件的属性。令人惊讶的是,我可以在所有阶段看到预览模式下的数据,但是当我尝试部署管道时它失败了。我尝试在源 (FTP) 和接收器 (GCS) 之间使用 CSVParser 和 TRANSFORM。它仍然显示相同的错误。我在 Hub 中使用 3.0.0 版的 FTP 插件。请帮我解决一下。
错误如下,当我尝试部署管道时,即使预览数据我也能看到数据。
好吧,我对此进行了很多研究,我发现此插件在 运行 ftp-plugins 时存在问题,因此目前您无能为力。幸运的是,有解决方法。仅举几例:
您可以使用旧版本(Dataproc 图像为 1.5/1.3),如 public 案例中所示,该案例也引用了此问题。有关此案例的更多详细信息,您可以查看 link 问题 SFTP Source fails when deployed (SftpExecption) but not in preview。别忘了点赞和留言。
另一种方法是使用
上有一个小指南SFTPCopy
插件(从集线器获取后,它应该出现在Conditions and Actions
下)。因此,您将能够从 SFTP 将文件提取到本地路径,并使用 SourceFILE
继续处理您的文件。 Reading from SFTP and writing to BigQuery这个有点极端,但您也可以使用不同的工作流管理平台,例如 airflow 来处理文件。
我通过在 Data Fusion 中将流水线执行引擎从 SPARK 更改为 MAPREDUCE 解决了这个问题。现在可以使用了。