Cloud Data Fusion 在读取带有 HTTP 源的 CSV 导出时出现问题
Cloud Data Fusion problems reading a CSV export with the HTTP source
我是第一次尝试云数据融合。
我有这个端点,我想以测试方式使用它:
https://waidlife.com/backend/export/index/export.csv?feedID=1&hash=4ebfa063359a73c356913df45b3fbe7f (这是一个shopware export)
header 行说明以下结构:
id,title,description,link,image_link,price,availability,condition,google_product_category
配置 HTTP 源(Data Fusion Hub 中可用的插件)时,我设置了以下记录(请注意,我将 google_product_category
设置为可为空)
我还将其配置为使用 CSV 作为格式并跳过 header 行:
现在,如果您查看 API 端点 URL(如上所述),您会发现 google_product_category
列是空的。我认为这不是问题,因为数据融合的输出模式可以忽略那里的值
2021-02-25 19:38:37,192 - ERROR [Executor task launch worker for task 0:o.a.s.u.Utils@91] - Aborting task
java.lang.RuntimeException: Cannot convert line '"10042","NeoShell Reliance Jacket","Das Filson NeoShell Reliance Jacket besteht aus Polartec NeoShell der aktuell atmungsaktivsten und wasserdichtesten Membrane die es gibt. Im Gegensatz zu gewöhnlichem Shell-Material, ist NeoShell besonders soft und geräuscharm und eignet sich somit auch perfekt für die Jagd. Die Nähte der wasserdichten Reißverschlüsse sind vollständig versiegelt. Die Reißverschlüsse unter den Achseln verhindern, dass sich bei hoher Aktivität Wärme anstaut und sorgen für die richtige Belüftung. Die...","https://www.waidlife.com/regenjacken/neoshell-reliance-jacket","https://www.waidlife.com/media/image/c8/ab/aa/NeoShellRelianceJacketLifestyle2.jpg","366.75 EUR","in stock","new",""' to a record. Reason: 'java.util.NoSuchElementException: null'
at io.cdap.plugin.http.source.batch.HttpBatchSource.transform(HttpBatchSource.java:109) ~[1614281902851-0/:na]
我尝试了每一种可能的配置组合,但就是无法弄清楚为什么整个事情不会 运行 成功。
这里的复制是整个管道的 JSON 导出:https://pastebin.com/0qkvTSvh
这是因为在引用的字符串中有额外的 ,
个字符。截至目前,我们不支持带分隔符的带引号字段的 CSV。如果这只是一个测试输入,我建议您尝试使用不包含 ,
的字符串值。支持空值并且应该按预期工作。
我为此创建了一个bug。
我是第一次尝试云数据融合。 我有这个端点,我想以测试方式使用它:
https://waidlife.com/backend/export/index/export.csv?feedID=1&hash=4ebfa063359a73c356913df45b3fbe7f (这是一个shopware export)
header 行说明以下结构:
id,title,description,link,image_link,price,availability,condition,google_product_category
配置 HTTP 源(Data Fusion Hub 中可用的插件)时,我设置了以下记录(请注意,我将 google_product_category
设置为可为空)
我还将其配置为使用 CSV 作为格式并跳过 header 行:
现在,如果您查看 API 端点 URL(如上所述),您会发现 google_product_category
列是空的。我认为这不是问题,因为数据融合的输出模式可以忽略那里的值
2021-02-25 19:38:37,192 - ERROR [Executor task launch worker for task 0:o.a.s.u.Utils@91] - Aborting task
java.lang.RuntimeException: Cannot convert line '"10042","NeoShell Reliance Jacket","Das Filson NeoShell Reliance Jacket besteht aus Polartec NeoShell der aktuell atmungsaktivsten und wasserdichtesten Membrane die es gibt. Im Gegensatz zu gewöhnlichem Shell-Material, ist NeoShell besonders soft und geräuscharm und eignet sich somit auch perfekt für die Jagd. Die Nähte der wasserdichten Reißverschlüsse sind vollständig versiegelt. Die Reißverschlüsse unter den Achseln verhindern, dass sich bei hoher Aktivität Wärme anstaut und sorgen für die richtige Belüftung. Die...","https://www.waidlife.com/regenjacken/neoshell-reliance-jacket","https://www.waidlife.com/media/image/c8/ab/aa/NeoShellRelianceJacketLifestyle2.jpg","366.75 EUR","in stock","new",""' to a record. Reason: 'java.util.NoSuchElementException: null'
at io.cdap.plugin.http.source.batch.HttpBatchSource.transform(HttpBatchSource.java:109) ~[1614281902851-0/:na]
我尝试了每一种可能的配置组合,但就是无法弄清楚为什么整个事情不会 运行 成功。
这里的复制是整个管道的 JSON 导出:https://pastebin.com/0qkvTSvh
这是因为在引用的字符串中有额外的 ,
个字符。截至目前,我们不支持带分隔符的带引号字段的 CSV。如果这只是一个测试输入,我建议您尝试使用不包含 ,
的字符串值。支持空值并且应该按预期工作。
我为此创建了一个bug。