使用 lxml 重写

Using rewrite with lxml

我正在生成 XML 模式,然后在 Python3 中生成数据文件。

生成的架构包含一个基本架构,我使用目录将包含 URI 更改为本地文件。我在 Python 中设置了环境变量 'XML_CATALOG_FILES',效果很好。

但是,我尝试使用 rewriteSystem 以使用本地生成的模式代替数据文件中的通用位置引用,但重写似乎不起作用。

这是目录。

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE catalog PUBLIC "-//OASIS//DTD XML Catalogs V1.1//EN" "http://www.oasis-open.org/committees/entity/release/1.1/catalog.dtd">
<catalog xmlns="urn:oasis:names:tc:entity:xmlns:xml:catalog">

  <!-- S3Model 3.0.0 RM Schema -->
  <uri name="https://www.s3model.com/ns/s3m/s3model_3_0_0.xsd" uri="s3model/s3model_3_0_0.xsd"/>


  <!-- S3Model DMs -->
  <rewriteSystem systemIdStartString="https://dmgen.s3model.com/dmlib/" rewritePrefix="file:///home/tim/DII/Kunteksto/output/"/>
</catalog>

当在 Oxygen 中使用 Xerces 或 Saxon 进行验证时,此目录文件工作正常。

XML 文件中的参考示例如下所示:

xsi:schemaLocation="https://www.s3model.com/ns/s3m/ https://dmgen.s3model.com/dmlib/dm-a42592f1-e8b3-4862-b6e2-ac0e48c138f4.xsd">

知道为什么 lxml (Libxml2) 能识别这个重写系统吗?

而不是创建解析器并引用数据文件中的架构。

我使用了一种不同的方法,即从 lxml 中的架构字符串创建架构对象。

    schema_doc = etree.parse(schema)
    modelSchema = etree.XMLSchema(schema_doc)

变量 schema 保存 XML 模式的字符串表示形式。

然后在创建每个数据文档时使用该模式对其进行验证:

  try:
     tree = etree.parse(StringIO(xmlStr))
     modelSchema.assertValid(tree)
  except etree.DocumentInvalid:
     file_id = "Invalid_" + file_id

我必须删除 XML 声明:

<?xml version="1.0" encoding="UTF-8"?>

使 etree.parse 也能正常工作。