快速循环打印十进制数字(嵌入式)

Fast cycling through decimal digits for printing (embedded)

在我的实时嵌入式处理器固件中,我需要十进制数的格式化打印。标准 printf/sprintf 在工具链中不可用,所以我需要自己实现它。

我使用了除以十并取余的天真的方法。但是我的目标处理器本身不支持除法,软件实现需要很长时间(超过 200us)来计算。 我想知道是否有快速的方法可以不除法地从数字中获取小数位?

char* os_prn_decimal(char* outBuf, const char* end, uint32 v)
{
    uint32 dgtIdx = 1000000000;

    do
    {
        uint8 dgt = (uint8)(v / dgtIdx);

        *outBuf = dgt + '0';
        ++outBuf;

       v = v % dgtIdx;
        dgtIdx /= 10;
    } while (outBuf < end && dgtIdx > 0);
    return outBuf;
}

您的解决方案直接以正确的顺序生成数字,但代价是可变除法 (v / dgtIdx)、可变模数(与除法具有相同或更大的成本)和一个除以 10。这是三个昂贵的操作。

先从最低有效位生成数字,然后再反转数字可能会更便宜。然后只需要除以 10 和模 10 运算。使用 Divide by 10 using bit shifts? 处的解并对其进行修改以在与商相同的操作中获得余数:

uint32_t div10_rem( uint32_t dividend, int* remainder )
{
    uint32_t quotient = (uint32_t)((0x1999999Aull * dividend) >> 32) ;
    *remainder = dividend - (quotient * 10) ;

    return quotient ;
}

那么转换为可显示的十进制字符串可能是:

char* int2dec( uint32_t val, char* buffer )
{
    char reverse_digits[10] = {0} ;
    uint32_t u = val ;
    size_t digit_count = 0 ;

    while( u > 0 )
    {
        int d = 0 ;
        u = div10_rem( u, &d ) ;
        reverse_digits[digit_count] = d + '0' ;
        digit_count++ ;
    }

    buffer[digit_count] = '[=11=]' ;
    size_t i = 0 ;
    for( size_t i = 0; i < digit_count; i++ )
    {
        buffer[i] = reverse_digits[digit_count - i - 1] ;
    }

    return buffer ;
}

然后是一个用法示例:

    char buffer[11] ;
    printf( "%s", int2dec( val, buffer) ) ;

如果适合使用静态缓冲区,可以避免数字反转:

#define MAX_DIGITS 10
const char* int2dec( uint32_t val )
{
    static char digits[MAX_DIGITS + 1] = {0} ;
    uint32_t u = val ;
    size_t digit_index = MAX_DIGITS - 1 ;

    while( u > 0 )
    {
        int d = 0 ;
        u = div10_rem( u, &d ) ;
        digits[digit_index] = d + '0' ;
        digit_index-- ;
    }

    return &digits[digit_index + 1] ;
}

然后,例如:

    printf( "%s", int2dec( val ) ) ;

来自 daShier 的提示帮助我纠正了我的谷歌搜索,我发现这篇文章 https://forum.arduino.cc/index.php?topic=167414.0 描述了除以 10 的有趣方法,它提供了商和模. 最好的部分是完全没有乘法、除法和循环。

UPD: 模拟测量显示,与替代解决方案相比,此解决方案的性能提高了约 2 倍,比我的原始实现提高了约 6 倍。

void divmod10(uint32_t in, uint32_t &div, uint32_t &mod)
{
 // q = in * 0.8;
 uint32_t q = (in >> 1) + (in >> 2);
 q = q + (q >> 4);
 q = q + (q >> 8);
 q = q + (q >> 16);  // not needed for 16 bit version

 // q = q / 8;  ==> q =  in *0.1;
 q = q >> 3;

 // determine error
 uint32_t  r = in - ((q << 3) + (q << 1));   // r = in - q*10;
 div = q + (r > 9);
 if (r > 9) mod = r - 10;
 else mod = r;
}