读取 xml 时地址越界错误
Address Out of bounds error when reading xml
我在使用 libxml 解析文件时遇到奇怪的段错误。当我将其编译为 32 位应用程序时,此代码以前有效。我将其更改为 64 位应用程序,但它停止工作了。
段错误出现在 "if (xmlStrcmp(cur->name, (const xmlChar *) " 服务器上"))"
cur->name 是一个 const xmlChar *,它指向一个表明其出界的地址。但是当我调试并转到那个内存位置时,那个数据是正确的。
int XmlGetServers()
{
xmlDocPtr doc;
xmlNodePtr cur;
doc = xmlParseFile("Pin.xml");
if (doc == NULL)
{
std::cout << "\n Pin.xml not parsed successfully." << std::endl;
return -1;
}
cur = xmlDocGetRootElement(doc);
if (cur == NULL)
{
std::cout << "\n Pin.xml is empty document." << std::endl;
xmlFreeDoc(doc);
return -1;
}
if (xmlStrcmp(cur->name, (const xmlChar *) "servers"))
{
std::cout << "\n ERROR: Pin.xml of the wrong type, root node != servers." << std::endl;
xmlFreeDoc(doc);
return -1;
}
}
在cur初始化之前name参数是
Name : name
Details:0xed11f72000007fff <Address 0xed11f72000007fff out of bounds>
cur初始化后name参数为
Name : name
Details:0x64c43000000000 <Address 0x64c43000000000 out of bounds>
引用了XML个文件
<?xml version="1.0"?>
<servers>
<server_info>
<server_name>Server1</server_name>
<server_ip>127.0.0.1</server_ip>
<server_data_port>9000</server_data_port>
</server_info>
<server_info>
<server_name>Server2</server_name>
<server_ip>127.0.0.1</server_ip>
<server_data_port>9001</server_data_port>
</server_info>
</servers>
系统:
OS:Redhat 企业版 Linux 6.4 64 位
海湾合作委员会:4.4.7-3
软件包:libxml2-2.7.6-8.el6_3.4.x86_64
我按原样获取了您的代码,并添加了:
#include <libxml/parser.h>
#include <iostream>
然后将函数重命名为 main() 并在具有 libxml2 2.9.2 的 x86-64 Fedora 22 上编译它
生成的代码 运行 成功,使用示例文件,没有段错误。即使 valgrind 也没有发现内存访问冲突。作为证明,生成的缩写 strace 日志如下:
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
open("Pin.xml", O_RDONLY) = 3
lseek(3, 0, SEEK_CUR) = 0
read(3, "<?xml version=\"1.0\"?>\n\n<servers>\n\n<server_info>\n\n <server_name>Server1</server_name>\n\n <server_ip>127.0.0.1</server_ip> \n\n <server_data_port>9000</server_data_port> \n\n</server_info>\n\n<server_info>\n\n <server_name>Server2</server_name> \n\n <ser"..., 8192) = 362
read(3, "", 7830) = 0
getcwd("/tmp", 1024) = 5
close(3) = 0
exit_group(0) = ?
+++ exited with 0 +++
虽然这是带有稍微新的libxml2 和gcc 的Fedora,但这种差异无关紧要。这里的答案是这里显示的代码没有任何问题。我看不出有什么问题。
但它显然是更大应用程序的一部分,并且您的内存损坏发生在应用程序的其他部分,并且只有当您的应用程序执行到这部分时才会表现出来。
关于 C++ 的事情是,仅仅因为代码在特定点崩溃,并不意味着该特定代码行就是问题所在。想出一个简单的例子应该不难:
#include <iostream>
#include <cstring>
int main()
{
char foo[3];
strcpy(foo, "FoobarbazXXXXXXXXXXXXXXXXXXXXXX");
for (int i=0; i<100; i++)
std::cout << i << std::endl;
return 0;
}
这里的bug明显出现在strcpy
行。但是代码会 运行 就好了,打印从 0 到 99 的 100 个数字,并在 main() returns 时崩溃。但是,显然,"return 0" 不是错误所在。
这类似于您的应用程序正在发生的情况。在某些时候会发生某种内存损坏,这不会对代码执行产生实质性影响,直到您的代码尝试解析您的 XML 文件。
欢迎使用 C++。
问题是我们在代码中使用了#pragma pack(1),
这意味着 DOMParser 中的 bool 被压缩到 1 个字节,而 Xerces 没有 #pragma pack 并获得 4 个字节的默认打包。
我在使用 libxml 解析文件时遇到奇怪的段错误。当我将其编译为 32 位应用程序时,此代码以前有效。我将其更改为 64 位应用程序,但它停止工作了。
段错误出现在 "if (xmlStrcmp(cur->name, (const xmlChar *) " 服务器上"))"
cur->name 是一个 const xmlChar *,它指向一个表明其出界的地址。但是当我调试并转到那个内存位置时,那个数据是正确的。
int XmlGetServers()
{
xmlDocPtr doc;
xmlNodePtr cur;
doc = xmlParseFile("Pin.xml");
if (doc == NULL)
{
std::cout << "\n Pin.xml not parsed successfully." << std::endl;
return -1;
}
cur = xmlDocGetRootElement(doc);
if (cur == NULL)
{
std::cout << "\n Pin.xml is empty document." << std::endl;
xmlFreeDoc(doc);
return -1;
}
if (xmlStrcmp(cur->name, (const xmlChar *) "servers"))
{
std::cout << "\n ERROR: Pin.xml of the wrong type, root node != servers." << std::endl;
xmlFreeDoc(doc);
return -1;
}
}
在cur初始化之前name参数是
Name : name
Details:0xed11f72000007fff <Address 0xed11f72000007fff out of bounds>
cur初始化后name参数为
Name : name
Details:0x64c43000000000 <Address 0x64c43000000000 out of bounds>
引用了XML个文件
<?xml version="1.0"?>
<servers>
<server_info>
<server_name>Server1</server_name>
<server_ip>127.0.0.1</server_ip>
<server_data_port>9000</server_data_port>
</server_info>
<server_info>
<server_name>Server2</server_name>
<server_ip>127.0.0.1</server_ip>
<server_data_port>9001</server_data_port>
</server_info>
</servers>
系统:
OS:Redhat 企业版 Linux 6.4 64 位
海湾合作委员会:4.4.7-3
软件包:libxml2-2.7.6-8.el6_3.4.x86_64
我按原样获取了您的代码,并添加了:
#include <libxml/parser.h>
#include <iostream>
然后将函数重命名为 main() 并在具有 libxml2 2.9.2 的 x86-64 Fedora 22 上编译它
生成的代码 运行 成功,使用示例文件,没有段错误。即使 valgrind 也没有发现内存访问冲突。作为证明,生成的缩写 strace 日志如下:
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
stat("Pin.xml", {st_mode=S_IFREG|0644, st_size=362, ...}) = 0
open("Pin.xml", O_RDONLY) = 3
lseek(3, 0, SEEK_CUR) = 0
read(3, "<?xml version=\"1.0\"?>\n\n<servers>\n\n<server_info>\n\n <server_name>Server1</server_name>\n\n <server_ip>127.0.0.1</server_ip> \n\n <server_data_port>9000</server_data_port> \n\n</server_info>\n\n<server_info>\n\n <server_name>Server2</server_name> \n\n <ser"..., 8192) = 362
read(3, "", 7830) = 0
getcwd("/tmp", 1024) = 5
close(3) = 0
exit_group(0) = ?
+++ exited with 0 +++
虽然这是带有稍微新的libxml2 和gcc 的Fedora,但这种差异无关紧要。这里的答案是这里显示的代码没有任何问题。我看不出有什么问题。
但它显然是更大应用程序的一部分,并且您的内存损坏发生在应用程序的其他部分,并且只有当您的应用程序执行到这部分时才会表现出来。
关于 C++ 的事情是,仅仅因为代码在特定点崩溃,并不意味着该特定代码行就是问题所在。想出一个简单的例子应该不难:
#include <iostream>
#include <cstring>
int main()
{
char foo[3];
strcpy(foo, "FoobarbazXXXXXXXXXXXXXXXXXXXXXX");
for (int i=0; i<100; i++)
std::cout << i << std::endl;
return 0;
}
这里的bug明显出现在strcpy
行。但是代码会 运行 就好了,打印从 0 到 99 的 100 个数字,并在 main() returns 时崩溃。但是,显然,"return 0" 不是错误所在。
这类似于您的应用程序正在发生的情况。在某些时候会发生某种内存损坏,这不会对代码执行产生实质性影响,直到您的代码尝试解析您的 XML 文件。
欢迎使用 C++。
问题是我们在代码中使用了#pragma pack(1), 这意味着 DOMParser 中的 bool 被压缩到 1 个字节,而 Xerces 没有 #pragma pack 并获得 4 个字节的默认打包。