MarkLogic 内容泵，content_encoding 编码="US-ASCII"？

Question

MarkLogic 安装在 Windows 10 台机器上。

我们正在使用 MarkLogic Content Pump (MLCP) 导入数据

与

配合使用效果很好

<?xml version="1.0" encoding="UTF-8"?>

导入非 UTF8 编码时显示错误，即

<?xml version="1.0" encoding="US-ASCII"?>

我查看了 MLCP 指南并找到 content_encoding 参数但它不起作用并且抛出错误记录包含特殊字符，如 ´ δ、“ & 等等

错误mapreduce.ContentWriter：XDMP-DOCENTITYREF：无效的实体引用"gamma"

我传递如下

mlcp.bat -content_encoding "US-ASCII"

当我查看 this document 时，它显示 "Only UTF-8 is supported."

当我查看 this 时，它显示 "The option value must be a character set name accepted by your JVM;"

所以我很困惑，不知道如何解决这个问题以及如何在 JVM 中设置字符集

Answer 1

感谢grtjn的回复。

-xml_repair_level 全部工作，现在所有记录都已提交，没有失败的记录。

特殊字符（带;）存储在ML中，真实字符如下

我希望从商业角度来看，这应该是可以接受的内容。

现在唯一的主要挑战是测试数百万 xml 条记录中的乱码。

感谢 grtjn 的帮助。

MarkLogic Content Pump , content_encoding encoding="US-ASCII"?