在 Talend 或其他工具中处理奇怪的分隔数据格式?

Dealing With a Weird delimited data format in Talend or other tool?

所以我有一个奇怪的分隔格式,我不熟悉它基于聊天相关应用程序的输出,这种格式对我来说很特别,谁能告诉我这个分隔格式是什么,如果它是如果可能的话,标准和任何可能的方式将其转换为带有文本引号的 CSV。

"NumValue1|""TextValue2""|""TextValue3""|""TextValue"""

所以我对这种数据格式的假设是有一行“” 文本限定符是“”文本“” 分隔符是 |

与使用文本限定符的 csv 相比,以这种格式分隔的价值是什么?文本值中似乎没有 "

Talend 是我的首选工具,但愿意使用任何工具来解决这个问题。

我认为这是一个嵌套结构。我认为原始数据是用竖线分隔的引号括起来的 CSV 文件。

NumValue1|"TextValue2"|"TextValue3"|"TextValue"

现在他们想用引号将其括起来,但需要处理原始引号。所以他们加倍了(SQL中的常用技术)

我的粗略建议是在 talend 中创建一个工作流: tFileInputfullRow -> tJavaRow -> tFileOutputDelimited(默认情况下 OutputDelimited 有问题,因此至少在 Talend 5 中它会让你的行保持原样)

 row2.line = row1.line.substring(1,row1.line.length()-2).replace("\"\"","\"")

然后你可以用 |"

做一个 tFileInputDelimited