如何使用arm neon 8bit乘加和转化为32位向量？

Question

我在做8位定点工作，我有A数组和B数组，都是Q7格式，我想求它们的和积。演示代码：

int8_t ra1[], ra2[], rb[];
int8x16_t va1, va2, vb;
int16x4_t vsum1, vsum2;
va1 = vld1q_s8(ra1);
va2 = vld1q_s8(ra2);
vb = vld1q_s8(rb);
vsum1 = vdup_n_s16(0);
vsum2 = vdup_n_s16(0);
    for (......)
    vsum1 = vmlal_s8(vsum1, vget_high_s8(va1), vget_high_s8(vb));
    vsum1 = vmlal_s8(vsum1, vget_low_s8(va1), vget_low_s8(vb));

总和+=a * b;这个和是16bit的，容易溢出，因为a*b是Q7×Q7 16bit可以表示Q15.Also，Q7xQ7的结果不能右移，需要保持高精度。我要怎么用neon，我要sum是32bit a，b还是8bit。我不想把a和b转成16bit用vmlal_s16，就slowly.I只需要一条指令可以用一个指令时间做乘法和加法。 neon c 内在函数没有这个功能，也许 neon 汇编代码可以做 this.Who 可以帮助我吗？谢谢。 Here 是 vmla 汇编代码信息。也许我可以使用它。请给一些建议，我不熟悉汇编代码。

Answer 1

希望此代码示例对您有所帮助：

inline int32x4_t Correlation(const int8x16_t & a, const int8x16_t & b)
{
    int16x8_t lo = vmull_s8(vget_low_s8(a), vget_low_s8(b));
    int16x8_t hi = vmull_s8(vget_high_s8(a), vget_high_s8(b));
    return vaddq_s32(vpaddlq_s16(lo), vpaddlq_s16(hi));
}

void CorrelationSum(const int8_t * a, const int8_t * b, size_t bStride, size_t size, int32_t * sum)
{
    int32x4_t sums = vdupq_n_s32(0);
    for (size_t i = 0; i < size; i += 16)
        sums = vaddq_s32(sums, Correlation(vld1q_s8(a + i), vld1q_s8(b + i)));
    *sum = vgetq_lane_s32(sums, 0) + vgetq_lane_s32(sums, 1) + vgetq_lane_s32(sums, 2) + vgetq_lane_s32(sums, 3);
}

注：本例基于函数Simd::Neon::CorrelationSum()。另外我建议使用以下函数 Load() 而不是 vld1q_s8():

inline int8x16_t Load(const int8_t * p)
{
#ifdef __GNUC__
    __builtin_prefetch(p + 384);
#endif
    return vld1q_s8(p);
}

使用预取可将性能提高 15-20%。

如何使用arm neon 8bit乘加和转化为32位向量？

How to use arm neon 8bit multiply add sum into 32 bit vector ？

arm

simd

neon