取消引用指针时的竞争条件
Race condition when dereferencing pointers
我们在一个非常简单的内存池中工作,我们发现了一个我们无法解决的非常有趣的错误。
算法的思路是这样的:有一堆"available"个内存块,所以每个块都有一个指向下一个可用块的指针。为了避免使用二级数据结构,我们决定使用相同的内存块来存储指针。因此,下一个可用的块是通过取消引用这个块来获得的: void *nextChunk = *((void **)chunk)
代码最初是用 C++ 原子实现的,但我们可以简化它并用 C 原子内在函数重现问题:
void *_topChunk;
void *getChunk()
{
void *chunk;
// Try to reserve a chunk (for these tests, it has been forced that _topChunk can never be null)
do {
chunk = _topChunk;
} while(!__sync_bool_compare_and_swap(&_topChunk, chunk, *((void **)chunk)));
return chunk;
}
void returnChunk(void *chunk)
{
do {
*((void **)chunk) = _topChunk;
} while (!__sync_bool_compare_and_swap(&_topChunk, *((void **)chunk), chunk));
}
对于我们已经 运行 调试此问题的测试,我们生成了几个执行此操作的线程:
while (1) {
void *ptr = getChunk();
*((void **)ptr) = (void *)~0ULL;
returnChunk(ptr);
}
在执行过程中的某个时刻,getChunk() 出现段错误,因为它试图取消引用 0xfff... 指针。但是从 returnChunk() 中的内容来看,*((void **)chunk) 永远不应该是 0xfff...,它应该是来自堆栈的有效指针。为什么它不起作用?
我们也尝试过使用一个中间的void *,而不是直接解引用,结果是完全一样的。
我认为问题出在函数 getChunk 上。 __sync_bool_compare_and_swap 的第三个参数可能已过时。让我们看一下 getChunk 的略微修改版本:
void *getChunk()
{
void *chunk;
void *chunkNext;
// Try to reserve a chunk (for these tests, it has been forced that _topChunk can never be null)
do {
chunk = _topChunk;
chunkNext = *(void **)chunk;
//chunkNext might have been changed meanwhile, but chunk is the same!!
} while(!__sync_bool_compare_and_swap(&_topChunk, chunk, chunkNext));
return chunk;
}
假设我们有一个包含三个块的简单链,位于地址 0x100、0x200 和 0x300。我们需要三个线程(A、B 和 C)来打破链条:
//The Chain: TOP -> 0x100 -> 0x200 -> 0x300 -> NIL
Thread
A chnk = top; //is 0x100
A chnkNext = *chnk; //is 0x200
B chnk = top //is 0x100
B chnkNext = *chnk; //is 0x200
B syncSwap(); //okay, swap takes place
B return chnk; //is 0x100
/*** The Chain Now: TOP -> 0x200 -> 0x300 -> NIL ***/
C chnk = top; //is 0x200
C chnkNext = *chnk //is 0x300
C syncSwap //okay, swap takes place
C return chnk; //is 0x200
/*** The Chain Now: TOP -> 0x300 -> NIL ***/
B returnChunk(0x100);
/*** The Chain Now: TOP -> 0x100 -> 0x300 -> NIL ***/
A syncSwap(&Top, 0x100, 0x200 /*WRONG, *chnk IS NOW 0x300!!!!*/ );
A return chnk;
我们在一个非常简单的内存池中工作,我们发现了一个我们无法解决的非常有趣的错误。
算法的思路是这样的:有一堆"available"个内存块,所以每个块都有一个指向下一个可用块的指针。为了避免使用二级数据结构,我们决定使用相同的内存块来存储指针。因此,下一个可用的块是通过取消引用这个块来获得的: void *nextChunk = *((void **)chunk)
代码最初是用 C++ 原子实现的,但我们可以简化它并用 C 原子内在函数重现问题:
void *_topChunk;
void *getChunk()
{
void *chunk;
// Try to reserve a chunk (for these tests, it has been forced that _topChunk can never be null)
do {
chunk = _topChunk;
} while(!__sync_bool_compare_and_swap(&_topChunk, chunk, *((void **)chunk)));
return chunk;
}
void returnChunk(void *chunk)
{
do {
*((void **)chunk) = _topChunk;
} while (!__sync_bool_compare_and_swap(&_topChunk, *((void **)chunk), chunk));
}
对于我们已经 运行 调试此问题的测试,我们生成了几个执行此操作的线程:
while (1) {
void *ptr = getChunk();
*((void **)ptr) = (void *)~0ULL;
returnChunk(ptr);
}
在执行过程中的某个时刻,getChunk() 出现段错误,因为它试图取消引用 0xfff... 指针。但是从 returnChunk() 中的内容来看,*((void **)chunk) 永远不应该是 0xfff...,它应该是来自堆栈的有效指针。为什么它不起作用?
我们也尝试过使用一个中间的void *,而不是直接解引用,结果是完全一样的。
我认为问题出在函数 getChunk 上。 __sync_bool_compare_and_swap 的第三个参数可能已过时。让我们看一下 getChunk 的略微修改版本:
void *getChunk()
{
void *chunk;
void *chunkNext;
// Try to reserve a chunk (for these tests, it has been forced that _topChunk can never be null)
do {
chunk = _topChunk;
chunkNext = *(void **)chunk;
//chunkNext might have been changed meanwhile, but chunk is the same!!
} while(!__sync_bool_compare_and_swap(&_topChunk, chunk, chunkNext));
return chunk;
}
假设我们有一个包含三个块的简单链,位于地址 0x100、0x200 和 0x300。我们需要三个线程(A、B 和 C)来打破链条:
//The Chain: TOP -> 0x100 -> 0x200 -> 0x300 -> NIL
Thread
A chnk = top; //is 0x100
A chnkNext = *chnk; //is 0x200
B chnk = top //is 0x100
B chnkNext = *chnk; //is 0x200
B syncSwap(); //okay, swap takes place
B return chnk; //is 0x100
/*** The Chain Now: TOP -> 0x200 -> 0x300 -> NIL ***/
C chnk = top; //is 0x200
C chnkNext = *chnk //is 0x300
C syncSwap //okay, swap takes place
C return chnk; //is 0x200
/*** The Chain Now: TOP -> 0x300 -> NIL ***/
B returnChunk(0x100);
/*** The Chain Now: TOP -> 0x100 -> 0x300 -> NIL ***/
A syncSwap(&Top, 0x100, 0x200 /*WRONG, *chnk IS NOW 0x300!!!!*/ );
A return chnk;