MarkLogic 内容泵,content_encoding 编码="US-ASCII"?
MarkLogic Content Pump , content_encoding encoding="US-ASCII"?
MarkLogic 安装在 Windows 10 台机器上。
我们正在使用 MarkLogic Content Pump (MLCP) 导入数据
与
配合使用效果很好
<?xml version="1.0" encoding="UTF-8"?>
导入非 UTF8 编码时显示错误,即
<?xml version="1.0" encoding="US-ASCII"?>
我查看了 MLCP 指南并找到 content_encoding 参数但它不起作用并且抛出错误记录包含特殊字符,如 ´ δ、“ & 等等
错误mapreduce.ContentWriter:XDMP-DOCENTITYREF:无效的实体引用"gamma"
我传递如下
mlcp.bat -content_encoding "US-ASCII"
当我查看 this document 时,它显示 "Only UTF-8 is supported."
当我查看 this 时,它显示 "The option value must be a character set name accepted by your JVM;"
所以我很困惑,不知道如何解决这个问题以及如何在 JVM 中设置字符集
感谢grtjn的回复。
-xml_repair_level 全部工作,现在所有记录都已提交,没有失败的记录。
特殊字符(带;)存储在ML中,真实字符如下
- &lambda - λ
- Å - Å
- &mu - μ
我希望从商业角度来看,这应该是可以接受的内容。
现在唯一的主要挑战是测试数百万 xml 条记录中的乱码。
感谢 grtjn 的帮助。
MarkLogic 安装在 Windows 10 台机器上。
我们正在使用 MarkLogic Content Pump (MLCP) 导入数据
与
配合使用效果很好<?xml version="1.0" encoding="UTF-8"?>
导入非 UTF8 编码时显示错误,即
<?xml version="1.0" encoding="US-ASCII"?>
我查看了 MLCP 指南并找到 content_encoding 参数但它不起作用并且抛出错误记录包含特殊字符,如 ´ δ、“ & 等等
错误mapreduce.ContentWriter:XDMP-DOCENTITYREF:无效的实体引用"gamma"
我传递如下
mlcp.bat -content_encoding "US-ASCII"
当我查看 this document 时,它显示 "Only UTF-8 is supported."
当我查看 this 时,它显示 "The option value must be a character set name accepted by your JVM;"
所以我很困惑,不知道如何解决这个问题以及如何在 JVM 中设置字符集
感谢grtjn的回复。
-xml_repair_level 全部工作,现在所有记录都已提交,没有失败的记录。
特殊字符(带;)存储在ML中,真实字符如下
- &lambda - λ
- Å - Å
- &mu - μ
我希望从商业角度来看,这应该是可以接受的内容。
现在唯一的主要挑战是测试数百万 xml 条记录中的乱码。
感谢 grtjn 的帮助。