0

潮声隔雨深 · 2020年04月05日

请问在用arm neon指令优化程序时，在一个for循环下，分别用int32x2_t和int32x4_t类型的指令，后者的速度并没有按照理论上的速度更快，反而比前者慢是怎么回事呢？必须要对生成的汇编指令进行优化吗？

请问在用arm neon指令优化程序时，在一个for循环下，分别用int32x2_t和int32x4_t类型的指令，后者的速度并没有按照理论上的速度更快，反而比前者慢是怎么回事呢？必须要对生成的汇编指令进行优化吗？谢谢指教。

1 个回答得票排序 · 时间排序

0

一知半解 · 2020年04月05日

Int32x2 比int32x4更快，是有可能发生的，在armv7平台的话有可能是寄存器不足引起的，在armv8平台的话，有可能是指令流水排布不好引起的。你需要查看反汇编来确定具体原因，从而修改intrisics指令用法。

0 评论已采纳

你的回答

关注数

1

收藏数

0

浏览数

5065

关注问题邀请回答

相似问题

ARM SOC芯片 ID识别码 1 请教：ARM SOC芯片（如手机SOC芯片）系统，当其热复位时，其系统内存RAM中的原数据是否继续保持不变？ 1 请问下：对市面上的ARM SOC芯片，如何可靠识别ARM SOC内所使用的ARM CPU内核IP型号？ 1

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息