读取 xml 时地址越界错误

Address Out of bounds error when reading xml

我在使用 libxml 解析文件时遇到奇怪的段错误。当我将其编译为 32 位应用程序时,此代码以前有效。我将其更改为 64 位应用程序,但它停止工作了。

段错误出现在 "if (xmlStrcmp(cur->name, (const xmlChar *) " 服务器上"))"

cur->name 是一个 const xmlChar *,它指向一个表明其出界的地址。但是当我调试并转到那个内存位置时,那个数据是正确的。

int XmlGetServers()
{
xmlDocPtr doc;
xmlNodePtr cur;

doc = xmlParseFile("Pin.xml");
if (doc == NULL)
{
    std::cout << "\n Pin.xml not parsed successfully." << std::endl;
    return -1;
}
cur = xmlDocGetRootElement(doc);

if (cur == NULL)
{
    std::cout << "\n Pin.xml is empty document." << std::endl;
    xmlFreeDoc(doc);
    return -1;
}
if (xmlStrcmp(cur->name, (const xmlChar *) "servers"))
{
    std::cout << "\n ERROR: Pin.xml of the wrong type, root node != servers." << std::endl;
    xmlFreeDoc(doc);
    return -1;
}
}

在cur初始化之前name参数是

Name : name
    Details:0xed11f72000007fff <Address 0xed11f72000007fff out of bounds>

cur初始化后name参数为

Name : name
    Details:0x64c43000000000 <Address 0x64c43000000000 out of bounds> 

引用了XML个文件

<?xml version="1.0"?>

<servers>

<server_info>

    <server_name>Server1</server_name>

    <server_ip>127.0.0.1</server_ip> 

    <server_data_port>9000</server_data_port> 

</server_info>

<server_info>

    <server_name>Server2</server_name> 

    <server_ip>127.0.0.1</server_ip> 

    <server_data_port>9001</server_data_port> 

</server_info>

</servers>

系统:

OS:Redhat 企业版 Linux 6.4 64 位

海湾合作委员会:4.4.7-3

软件包:libxml2-2.7.6-8.el6_3.4.x86_64

我按原样获取了您的代码,并添加了:

#include <libxml/parser.h>
#include <iostream>

然后将函数重命名为 main() 并在具有 libxml2 2.9.2 的 x86-64 Fedora 22 上编译它

生成的代码 运行 成功,使用示例文件,没有段错误。即使 valgrind 也没有发现内存访问冲突。作为证明,生成的缩写 strace 日志如下:

stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
open("Pin.xml", O_RDONLY)               = 3
lseek(3, 0, SEEK_CUR)                   = 0
read(3, "<?xml version=\"1.0\"?>\n\n<servers>\n\n<server_info>\n\n    <server_name>Server1</server_name>\n\n    <server_ip>127.0.0.1</server_ip> \n\n    <server_data_port>9000</server_data_port> \n\n</server_info>\n\n<server_info>\n\n    <server_name>Server2</server_name> \n\n    <ser"..., 8192) = 362
read(3, "", 7830)                       = 0
getcwd("/tmp", 1024)                    = 5
close(3)                                = 0
exit_group(0)                           = ?
+++ exited with 0 +++

虽然这是带有稍微新的libxml2 和gcc 的Fedora,但这种差异无关紧要。这里的答案是这里显示的代码没有任何问题。我看不出有什么问题。

但它显然是更大应用程序的一部分,并且您的内存损坏发生在应用程序的其他部分,并且只有当您的应用程序执行到这部分时才会表现出来。

关于 C++ 的事情是,仅仅因为代码在特定点崩溃,并不意味着该特定代码行就是问题所在。想出一个简单的例子应该不难:

#include <iostream>
#include <cstring>

int main()
{

    char foo[3];

    strcpy(foo, "FoobarbazXXXXXXXXXXXXXXXXXXXXXX");

    for (int i=0; i<100; i++)
        std::cout << i << std::endl;
    return 0;
}

这里的bug明显出现在strcpy行。但是代码会 运行 就好了,打印从 0 到 99 的 100 个数字,并在 main() returns 时崩溃。但是,显然,"return 0" 不是错误所在。

这类似于您的应用程序正在发生的情况。在某些时候会发生某种内存损坏,这不会对代码执行产生实质性影响,直到您的代码尝试解析您的 XML 文件。

欢迎使用 C++。

问题是我们在代码中使用了#pragma pack(1), 这意味着 DOMParser 中的 bool 被压缩到 1 个字节,而 Xerces 没有 #pragma pack 并获得 4 个字节的默认打包。