如何处理 Sqoop 中的垃圾字符

How to handle Junk characters in Sqoop

使用 sqoop 将数据从 RDBMS 导入到 Hadoop 时。如果我的源系统包含垃圾字符,我们如何替换它们

例如:1,双关语,旅行,

垃圾 字符的定义可能因存储的数据和数据的使用而异。 Sqoop 导入允许删除 Hive 分隔符(通过 --hive-drop-import-delims 选项)或替换 Hive 分隔符(通过 --hive-delims-replacement 选项)。导入作业将数据登陆 Hadoop 后,需要进行其他形式的数据处理。

根据 Sqoop documentation:

--hive-drop-import-delims: Drops \n, \r, and  from string fields when importing to Hive.
--hive-delims-replacement: Replace \n, \r, and  from string fields with user defined string when importing to Hive.