列 headers 中的数据工厂特殊字符

data factory special character in column headers

我有一个文件正在通过数据工厂读入 blob。 其格式为 excel。一些列 headers 有特殊字符和空格,如果想将它带到 csv 或 parquet 然后 SQL 是不好的。 有没有办法在管道中纠正这个问题? 例子 “最近 15 秒内的激活高+低”“首次进入速度(序列T/a)”

谢谢

通常情况下,Data Flow 可以通过添加一个带有规则的 Select 转换来为您处理此问题:

  1. 取消选中“自动映射”。
  2. 点击“+ 添加映射”
  3. 对于列名,输入“true()”以处理所有列。
  4. 输入适当的表达式以重命名列。此示例使用正则表达式删除所有非字母字符。

特例

列名包含正斜杠(“/”)可能存在问题。我在测试中不小心遇到了这个:

未映射的每一列都包含正斜杠。不幸的是,我无法解释为什么会出现这种情况,因为数据流清楚地知道列名。可以通过为每个违规列添加固定规则来手动解决,这显然不太理想:

另一种选择

您可以尝试的另一件事是使用没有分隔符的源数据集使用另一个数据流预处理文本文件。这将为您提供每一行的内容作为一列。如果你能得到第一行的句柄,你就可以删除特殊字符。