在 qt DOM xml 解析器中使用 setContent(&file) 加载较大文件时出错

Error while loading larger files with setContent(&file) at a qt DOM xml Parser

我 运行遇到一个我无法解决的奇怪问题。好像没人有这个问题。在加载一个小 XML 文件(4mb)时一切正常,程序 运行 正常,但是当我试图加载一个更大的文件(200mb)时,程序崩溃而没有任何错误(即使在调试模式)。它也不会打印出错误消息,因为程序在调用之前崩溃了。感谢您的帮助。

来自 QT 创建者的错误日志是:

The program has unexpectedly finished. C:/Parser [path]/XmlDOM crashed

代码:

QFile file("./file.osm");
qDebug() << file.exists();
qDebug() << file.size();

QString errorStr;
int errorLine;
int errorColumn;

QDomDocument document;

if(!file.open(QIODevice::ReadOnly | QIODevice::Text))
{
    qDebug() << "Failed to open file";
    return -1;
}
else
{
    if(!document.setContent(&file, false, &errorStr, &errorLine, &errorColumn)) //here the programm crashes
    {
        std::cerr << "Error: Parse error at line " << errorLine << ", "
                          << "column " << errorColumn << ": "
                          << qPrintable(errorStr) << std::endl;
       return -1;
    }
    qDebug() << file.isReadable(); //with small files this becomes true 
    file.close();
    } 
QDomElement root = document.firstChildElement();

解法:

激活交换分区或获取更多内存,程序崩溃,因为 PC is/was 内存不足。更新留在问题中只是为了记录我的进一步步骤。

更新: 我在另一台机器上安装了所有东西。现在我得到了一些输出:

Error: Parse error at line 1, column 1: unexpected end of file

有趣的是,现在即使是小文件也无法正常工作,return 出现错误。经过一些挖掘,一些人将文件的路径设置错误,所以我检查了我的路径。

qDebug() << "File exists: " << file.exists(); 
qDebug() << "File path: " << QFileInfo(file).absoluteFilePath();
qDebug() << "File size: " << file.size();    

这个returns:正确,/path/to/file/file.osm,尺寸正确

我还检查了我的 XML 文件是否有效,它们是有效的。那么有什么新的建议吗?到目前为止我卡住了

更新2: 首先感谢您的回答!一次绝望的尝试是:

else{
  document.setContent(&file); //passed and worked, funny
}
qDebug() << file.isReadable(); 
file.close();

这最终适用于新设置中的大文件和小文件:

else
{

    if(!document.setContent(&file))
    {
       std::cerr << "Error: Open file "<< std::endl;
       return -1;
    }
    qDebug() << file.isReadable(); 
    file.close();

为什么我使用 DOM 解析器: XML 结构是这样的:

<osm>
    <node id ="1" lat="value", lon="value" />
    <node id ="2" lat="value", lon="value" />
    <node id ="3" lat="value", lon="value" />

    <way id="12345">
      <nd ref ="1"/>
      <nd ref ="2"/>
      <nd ref ="3"/>
    </way>
</osm>

我想重建路径点,因为节点的经纬度值是必需的。为此,我希望能够将路径 ref id 与节点 id 相匹配,并将值放入路径中。 Sax 解析器是更好的解决方案吗?我使用 DOM 树,我可以轻松地遍历 "node" 并匹配 id,而无需再次解析完整的 XML。我使用 Ubuntu 和新的设置 qt5。我得到了第二代 i5 和 8GB 内存,在处理大文件时内存已满。一个 运行 在发布模式下需要 50 分钟 für 1000ways with 5-50 nodes。

Qt XML 和 QDomDocument 包不应该用于非常大的 XML 文档。

对象 QDomDocument 将整个 XML 文档结构保存在 RAM 中。这是 XML 文件大小的关键阈值 200MB,因为这样的文件 QDomDocument 可以使用 2GB 或 RAM。

Windows 的可用 Qt4 版本是使用 32 位编译器构建的。因此,它是此类应用程序的限制,例如 How much memory can a 32 bit process access on a 64 bit operating system?

一般而言,不应将整个大型 XML 文档加载到 RAM。此类文件应由 stream parsers.

处理

另一方面,如果 XML 文档不比 200MB 大很多并且项目已经在使用 QDomDocument 并且 PC 上有足够的 RAM(8GB - 16GB) 可以使用 64 位编译器编译项目。在这种情况下,应该手动编译 Qt4。此外 Release 构建使用的 RAM 可能比 Debug.

少两倍

解决方案是激活交换分区或获取更多 RAM,程序崩溃是因为 PC is/was RAM 不足。 更好的解决方案是使用 SAX 解析器。

对于运行时问题:使用映射而不是向量。对于一个大文件,运行时间缩减到约 20 秒。