在 Talend 或其他工具中处理奇怪的分隔数据格式?
Dealing With a Weird delimited data format in Talend or other tool?
所以我有一个奇怪的分隔格式,我不熟悉它基于聊天相关应用程序的输出,这种格式对我来说很特别,谁能告诉我这个分隔格式是什么,如果它是如果可能的话,标准和任何可能的方式将其转换为带有文本引号的 CSV。
"NumValue1|""TextValue2""|""TextValue3""|""TextValue"""
所以我对这种数据格式的假设是有一行“”
文本限定符是“”文本“”
分隔符是 |
与使用文本限定符的 csv 相比,以这种格式分隔的价值是什么?文本值中似乎没有 "
Talend 是我的首选工具,但愿意使用任何工具来解决这个问题。
我认为这是一个嵌套结构。我认为原始数据是用竖线分隔的引号括起来的 CSV 文件。
NumValue1|"TextValue2"|"TextValue3"|"TextValue"
现在他们想用引号将其括起来,但需要处理原始引号。所以他们加倍了(SQL中的常用技术)
我的粗略建议是在 talend 中创建一个工作流:
tFileInputfullRow -> tJavaRow -> tFileOutputDelimited
(默认情况下 OutputDelimited 有问题,因此至少在 Talend 5 中它会让你的行保持原样)
row2.line = row1.line.substring(1,row1.line.length()-2).replace("\"\"","\"")
然后你可以用 |
和 "
做一个 tFileInputDelimited
所以我有一个奇怪的分隔格式,我不熟悉它基于聊天相关应用程序的输出,这种格式对我来说很特别,谁能告诉我这个分隔格式是什么,如果它是如果可能的话,标准和任何可能的方式将其转换为带有文本引号的 CSV。
"NumValue1|""TextValue2""|""TextValue3""|""TextValue"""
所以我对这种数据格式的假设是有一行“” 文本限定符是“”文本“” 分隔符是 |
与使用文本限定符的 csv 相比,以这种格式分隔的价值是什么?文本值中似乎没有 "
Talend 是我的首选工具,但愿意使用任何工具来解决这个问题。
我认为这是一个嵌套结构。我认为原始数据是用竖线分隔的引号括起来的 CSV 文件。
NumValue1|"TextValue2"|"TextValue3"|"TextValue"
现在他们想用引号将其括起来,但需要处理原始引号。所以他们加倍了(SQL中的常用技术)
我的粗略建议是在 talend 中创建一个工作流:
tFileInputfullRow -> tJavaRow -> tFileOutputDelimited
(默认情况下 OutputDelimited 有问题,因此至少在 Talend 5 中它会让你的行保持原样)
row2.line = row1.line.substring(1,row1.line.length()-2).replace("\"\"","\"")
然后你可以用 |
和 "