Cloud Data Fusion - trim 所有列的引号

Cloud Data Fusion - trim quotes for all columns

我在 GCS 中有一个 csv 文件,其中包含数百列用引号引起来的字段,如下所示:

"John","Doe","5/15/2021 7:18:26 PM"

我需要使用数据融合将其加载到 BigQuery,创建了一个管道。我的问题是

  1. 我如何trim 引用 Wrangler 中的这些列?我没有找到太多关于这个的文档,而不是基本的东西
  2. 如何一次将此规则应用于所有列。

请指导我,阅读任何有关此类操作的好书也会有所帮助

出于测试目的,我使用了您的示例数据并添加了更多条目。

删除引号

如果您的数据看起来像这样并且您的 objective 只是从数据中删除引号,您可以做的是:

  • 单击 body
  • 旁边的下拉箭头
  • Select 查找并替换
  • 在查找处输入 " 并保留替换为空白

您的输出将如下所示:


解析 CSV 以拆分成列

然后您可以将 CSV 转换为列:

  • 单击 body
  • 旁边的下拉菜单
  • Select 解析 -> CSV
  • 将出现一个弹出窗口和 select“逗号”

这将告诉您的管理员将其读取为 CSV 并将逗号拆分为列。但原始数据将保留在列 body.

删除正文:

  • Select body 通过勾选右边的复选框
  • 单击 body
  • 旁边的下拉菜单
  • Select 删除列

您的数据现在应该如下所示: