MarkLogic 内容泵,content_encoding 编码="US-ASCII"?

MarkLogic Content Pump , content_encoding encoding="US-ASCII"?

MarkLogic 安装在 Windows 10 台机器上。

我们正在使用 MarkLogic Content Pump (MLCP) 导入数据

配合使用效果很好
<?xml version="1.0" encoding="UTF-8"?>

导入非 UTF8 编码时显示错误,即

<?xml version="1.0" encoding="US-ASCII"?>

我查看了 MLCP 指南并找到 content_encoding 参数但它不起作用并且抛出错误记录包含特殊字符,如 ´ δ、“ & 等等

错误mapreduce.ContentWriter:XDMP-DOCENTITYREF:无效的实体引用"gamma"

我传递如下

mlcp.bat -content_encoding "US-ASCII"

当我查看 this document 时,它显示 "Only UTF-8 is supported."

当我查看 this 时,它显示 "The option value must be a character set name accepted by your JVM;"

所以我很困惑,不知道如何解决这个问题以及如何在 JVM 中设置字符集

感谢grtjn的回复。

-xml_repair_level 全部工作,现在所有记录都已提交,没有失败的记录。

特殊字符(带;)存储在ML中,真实字符如下

  • &lambda - λ
  • Å - Å
  • &mu - μ

我希望从商业角度来看,这应该是可以接受的内容。

现在唯一的主要挑战是测试数百万 xml 条记录中的乱码。

感谢 grtjn 的帮助。