ncnn在树莓派1代dsp优化和超频实验

可在不修改本文章内容和banner图前提下，转载本文

电子垃圾迎来了春天

前些日子，去海鲜市场搞来个树莓派1b+，SOC BCM2835，700MHz ARM1176JZF-S处理器，内存512M，无WiFi

树莓派1的cpu是armv6架构，不具备neon指令集，但具备dsp增强指令集

关于 arm dsp 增强指令集

早在 ARMv5TE 和 ARMv5TEJ 架构已经加入了 dsp 增强指令，有 ARM926EJ-S 实现

在 armv6 中进一步扩充了一些 8bit dsp 指令，形成更系统的 dsp 指令集

在 Cortex-M4、Cortex-M7、Cortex-M33、Cortex-M35P、Cortex-M55 等 arm 低功耗系列中也加入了 dsp 指令集，指令基本与 armv6 保持一致

arm dsp 中的关键指令 smlad 能实现 i32 += i16 * i16 + i16 * i16，适合量化神经网络中 sgemm/winograd 做加速

gcc/clang 有宏 __ARM_FEATURE_SIMD32 判定是否编译支持 dsp 指令

gcc-10.1 及更新版本支持 arm dsp intrinsics，头文件为 arm_acle.h

需要使用 inline assembly，以便兼容更老的编译器。由于 dsp 指令的操作数是整数寄存器，在debug模式编译，-fno-omit-frame-pointer 结合 -fpic 后可自由使用的寄存器不足10个，导致错误error: ‘asm’ operand has impossible constraints，需要针对此情况写成分开的inline assembly语句。相较于龙芯 loongson-mmi 使用64bit浮点寄存器，arm dsp不够灵活，寄存器压力也较大。

下面代码引用自 ncnn/src/layer/arm/convolution_winograd_dot_int8.h

#if __ARM_FEATURE_SIMD32
for (; j + 1 < inch; j += 2)
{
    // fomit-frame-pointer implied in optimized flag spare one register
    // let us stay away from error: ‘asm’ operand has impossible constraints   --- nihui
#if __OPTIMIZE__
    asm volatile(
        "ldr    r2, [%0], #4    \n" // int16x2_t _val02 = *((int16x2_t*)r0); r0 += 2;
        "ldr    r3, [%0], #4    \n" // int16x2_t _val13 = *((int16x2_t*)r0); r0 += 2;
        "ldr    r4, [%1], #4    \n" // int16x2_t _w02 = *((int16x2_t*)k0); k0 += 2;
        "ldr    r5, [%1], #4    \n" // int16x2_t _w13 = *((int16x2_t*)k0); k0 += 2;
        "smlad  %2, r2, r4, %2  \n" // sum00 = __smlad(_val02, _w02, sum00);
        "smlad  %3, r3, r4, %3  \n" // sum01 = __smlad(_val13, _w02, sum01);
        "smlad  %4, r2, r5, %4  \n" // sum10 = __smlad(_val02, _w13, sum10);
        "smlad  %5, r3, r5, %5  \n" // sum11 = __smlad(_val13, _w13, sum11);
        : "=r"(r0),
        "=r"(k0),
        "=r"(sum00),
        "=r"(sum01),
        "=r"(sum10),
        "=r"(sum11)
        : "0"(r0),
        "1"(k0),
        "2"(sum00),
        "3"(sum01),
        "4"(sum10),
        "5"(sum11)
        : "memory", "r2", "r3", "r4", "r5");
#else
    int _val02 = *((int*)r0);
    int _val13 = *((int*)(r0 + 2));
    int _w02 = *((int*)k0);
    int _w13 = *((int*)(k0 + 2));
    asm volatile("smlad %0, %2, %3, %0"
                    : "=r"(sum00)
                    : "0"(sum00), "r"(_val02), "r"(_w02)
                    :);
    asm volatile("smlad %0, %2, %3, %0"
                    : "=r"(sum01)
                    : "0"(sum01), "r"(_val13), "r"(_w02)
                    :);
    asm volatile("smlad %0, %2, %3, %0"
                    : "=r"(sum10)
                    : "0"(sum10), "r"(_val02), "r"(_w13)
                    :);
    asm volatile("smlad %0, %2, %3, %0"
                    : "=r"(sum11)
                    : "0"(sum11), "r"(_val13), "r"(_w13)
                    :);
    r0 += 4;
    k0 += 4;
#endif
}
#endif // __ARM_FEATURE_SIMD32