Cloud Data Fusion - trim 所有列的引号
Cloud Data Fusion - trim quotes for all columns
我在 GCS 中有一个 csv 文件,其中包含数百列用引号引起来的字段,如下所示:
"John","Doe","5/15/2021 7:18:26 PM"
我需要使用数据融合将其加载到 BigQuery,创建了一个管道。我的问题是
- 我如何trim 引用 Wrangler 中的这些列?我没有找到太多关于这个的文档,而不是基本的东西
- 如何一次将此规则应用于所有列。
请指导我,阅读任何有关此类操作的好书也会有所帮助
出于测试目的,我使用了您的示例数据并添加了更多条目。
删除引号
如果您的数据看起来像这样并且您的 objective 只是从数据中删除引号,您可以做的是:
- 单击 body
旁边的下拉箭头
- Select 查找并替换
- 在查找处输入 " 并保留替换为空白
您的输出将如下所示:
解析 CSV 以拆分成列
然后您可以将 CSV 转换为列:
- 单击 body
旁边的下拉菜单
- Select 解析 -> CSV
- 将出现一个弹出窗口和 select“逗号”
这将告诉您的管理员将其读取为 CSV 并将逗号拆分为列。但原始数据将保留在列 body.
删除正文:
- Select body 通过勾选右边的复选框
- 单击 body
旁边的下拉菜单
- Select 删除列
您的数据现在应该如下所示:
我在 GCS 中有一个 csv 文件,其中包含数百列用引号引起来的字段,如下所示:
"John","Doe","5/15/2021 7:18:26 PM"
我需要使用数据融合将其加载到 BigQuery,创建了一个管道。我的问题是
- 我如何trim 引用 Wrangler 中的这些列?我没有找到太多关于这个的文档,而不是基本的东西
- 如何一次将此规则应用于所有列。
请指导我,阅读任何有关此类操作的好书也会有所帮助
出于测试目的,我使用了您的示例数据并添加了更多条目。
删除引号
如果您的数据看起来像这样并且您的 objective 只是从数据中删除引号,您可以做的是:
- 单击 body 旁边的下拉箭头
- Select 查找并替换
- 在查找处输入 " 并保留替换为空白
您的输出将如下所示:
解析 CSV 以拆分成列
然后您可以将 CSV 转换为列:
- 单击 body 旁边的下拉菜单
- Select 解析 -> CSV
- 将出现一个弹出窗口和 select“逗号”
这将告诉您的管理员将其读取为 CSV 并将逗号拆分为列。但原始数据将保留在列 body.
删除正文:
- Select body 通过勾选右边的复选框
- 单击 body 旁边的下拉菜单
- Select 删除列
您的数据现在应该如下所示: