[Vertica][VJDBC](100172) 一行或多行被服务器拒绝
[Vertica][VJDBC](100172) One or more rows were rejected by the server
使用 Sqoop 将数据从 Impala 加载到 Vertica 时出现以下错误。
Error: java.io.IOException: Can't export data, please check failed map
task logs at
org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:112)
at
org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145) at
org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341) at
org.apache.hadoop.mapred.YarnChild.run(YarnChild.java:163) at
java.security.AccessController.doPrivileged(Native Method) at
javax.security.auth.Subject.doAs(Subject.java:422) at
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1671)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158) Caused
by: java.io.IOException: java.sql.BatchUpdateException:
[Vertica]VJDBC One or more rows were rejected by the server.
at
org.apache.sqoop.mapreduce.AsyncSqlRecordWriter.write(AsyncSqlRecordWriter.java:233)
at
org.apache.sqoop.mapreduce.AsyncSqlRecordWriter.write(AsyncSqlRecordWriter.java:46)
at
org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:658)
at
org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)
at
org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)
at
org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:84)
... 10 more Caused by: java.sql.BatchUpdateException:
[Vertica]VJDBC One or more rows were rejected by the server.
at com.vertica.jdbc.SStatement.processBatchResults(Unknown Source)
at com.vertica.jdbc.SPreparedStatement.executeBatch(Unknown Source)
at
org.apache.sqoop.mapreduce.AsyncSqlOutputFormat$AsyncSqlExecThread.run(AsyncSqlOutputFormat.java:231)
我是运行以下命令:
sudo -u impala sqoop export -Dsqoop.export.records.per.statement=xxx
--driver com.vertica.jdbc.Driver --connect jdbc:vertica://host:5433/db --username name --password pw --table table --export-dir /some/dir -m 1 --input-fields-terminated-by '\t' --input-lines-terminated-by '\n'
--batch
并不是每次都出现这个错误。我有几个成功的测试加载了超过 200 万行数据。所以我猜可能有一些坏数据在被拒绝的行中包含特殊字符。这非常烦人,因为当出现此错误时,mapreduce 作业将回滚并重试。在这种情况下,目标 table 中将有大量重复数据。
有没有人知道是否有可以设置任何 sqoop 导出参数来处理特殊字符,或者是否有任何方法可以跳过坏数据,这意味着禁用回滚?谢谢!
这可能不仅仅是特殊字符。例如,如果您尝试将 'abc
' 填充到数字字段中,该行将被拒绝。即使你得到这个错误,我相信它不会在加载之后并且应该提交所有可以提交的数据(但我会验证)。如果您隔离 "missing" 行,您可能能够找出数据或字段定义有什么问题。
要查找的常见内容:
- 将字符类型数据填充到数字字段中(可能是隐式转换,或者仅在值为非 NULL 时显示)。
NULL
个值到 NOT NULL
个字段
- 计算字符和
VARCHAR
个八位字节是等价的。 VARCHAR(x)
表示八位字节,但一个 UTF-8 字符可以有多个八位字节。
- 与#3 类似,字符串太长而无法放入指定字段。
在驱动程序中,批量插入被替换为 COPY FROM STDIN
语句。您或许可以在 query_requests
中找到该声明,但我不确定它是否有帮助。
Sqoop 并没有给你太多机会进一步研究这个问题(据我所知,我检查了通用的 JDBC Loader)。可以查看 executeBatch()
的 return 数组并将其与您的执行批处理联系起来。也许修改通用 JDBC 加载程序?
希望这对您有所帮助。
使用 Sqoop 将数据从 Impala 加载到 Vertica 时出现以下错误。
Error: java.io.IOException: Can't export data, please check failed map task logs at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:112) at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39) at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145) at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341) at org.apache.hadoop.mapred.YarnChild.run(YarnChild.java:163) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1671) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158) Caused by: java.io.IOException: java.sql.BatchUpdateException: [Vertica]VJDBC One or more rows were rejected by the server. at org.apache.sqoop.mapreduce.AsyncSqlRecordWriter.write(AsyncSqlRecordWriter.java:233) at org.apache.sqoop.mapreduce.AsyncSqlRecordWriter.write(AsyncSqlRecordWriter.java:46) at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:658) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112) at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:84) ... 10 more Caused by: java.sql.BatchUpdateException: [Vertica]VJDBC One or more rows were rejected by the server. at com.vertica.jdbc.SStatement.processBatchResults(Unknown Source) at com.vertica.jdbc.SPreparedStatement.executeBatch(Unknown Source) at org.apache.sqoop.mapreduce.AsyncSqlOutputFormat$AsyncSqlExecThread.run(AsyncSqlOutputFormat.java:231)
我是运行以下命令:
sudo -u impala sqoop export -Dsqoop.export.records.per.statement=xxx --driver com.vertica.jdbc.Driver --connect jdbc:vertica://host:5433/db --username name --password pw --table table --export-dir /some/dir -m 1 --input-fields-terminated-by '\t' --input-lines-terminated-by '\n' --batch
并不是每次都出现这个错误。我有几个成功的测试加载了超过 200 万行数据。所以我猜可能有一些坏数据在被拒绝的行中包含特殊字符。这非常烦人,因为当出现此错误时,mapreduce 作业将回滚并重试。在这种情况下,目标 table 中将有大量重复数据。
有没有人知道是否有可以设置任何 sqoop 导出参数来处理特殊字符,或者是否有任何方法可以跳过坏数据,这意味着禁用回滚?谢谢!
这可能不仅仅是特殊字符。例如,如果您尝试将 'abc
' 填充到数字字段中,该行将被拒绝。即使你得到这个错误,我相信它不会在加载之后并且应该提交所有可以提交的数据(但我会验证)。如果您隔离 "missing" 行,您可能能够找出数据或字段定义有什么问题。
要查找的常见内容:
- 将字符类型数据填充到数字字段中(可能是隐式转换,或者仅在值为非 NULL 时显示)。
NULL
个值到NOT NULL
个字段- 计算字符和
VARCHAR
个八位字节是等价的。VARCHAR(x)
表示八位字节,但一个 UTF-8 字符可以有多个八位字节。 - 与#3 类似,字符串太长而无法放入指定字段。
在驱动程序中,批量插入被替换为 COPY FROM STDIN
语句。您或许可以在 query_requests
中找到该声明,但我不确定它是否有帮助。
Sqoop 并没有给你太多机会进一步研究这个问题(据我所知,我检查了通用的 JDBC Loader)。可以查看 executeBatch()
的 return 数组并将其与您的执行批处理联系起来。也许修改通用 JDBC 加载程序?
希望这对您有所帮助。