之前一直使用neon内联函数优化代码?但有些代码优化后效率实在不如人意?是不是代码顺序不好不利于cpu流水线工作?有没有相关的文档介绍下每条内联函数的时钟周期,这样是不是可以更好的安排代码顺序呢?
之前一直使用neon内联函数优化代码?但有些代码优化后效率实在不如人意?是不是代码顺序不好不利于cpu流水线工作?有没有相关的文档介绍下每条内联函数的时钟周期,这样是不是可以更好的安排代码顺序呢?
你可以在网上搜索Cortex-A57 Software Optimization Guide, 这里面会有指令timing的信息。
写好intrinsic代码后,也可以查看反汇编,看看自己的想法是否实现了,是否有预想外的额外开销,比如额外的数据压栈之类的。