最近在准备第三季的内容时候看了一下NEON汇编指令,挺有意思。我写了个小程序来试试NEON汇编指令究竟能有多少快。有的小伙伴可能不知道啥鸟是NEON。其实NEON就是ARM公司给自家的SIMD指令取了一个好听的花名。
SIMD指的是单指令多数据流,它对多个数据元素同时执行相同的操作。这些数据元素被打包成一个更大的寄存器中的独立通道(Lanes)。例如,ADD指令将32位数据元素加在一起。这些值被打包到两对128位寄存器(分别是V8和V9)中的单独通道中。然后将第一源寄存器中的每个通道添加到第二源寄存器中的相应通道,然后将其存储在目标寄存器(V10)中的同一通道中。
ADD V0.4S, V1.4S, V2.4S
ADD指令会并行做4个加法运算,它们分别位于处理器内部的4个计算通道并且是相互独立的,任何一个通道发生了溢出或者进位都不会影响其他通道。
V0.4S[0] = V1.4S[0]+ V2.4S[0]
V0.4S[1] = V1.4S[1]+ V2.4S[1]
V0.4S[2] = V1.4S[2]+ V2.4S[2]
V0.4S[3] = V1.4S[3]+ V2.4S[3]

SIMD非常适合图像处理场景。图像的数据常用的数据类型是RGB565,RGBA8888, YUV422等格式,这些格式的数据

文章探讨了ARM的NEON SIMD指令如何显著提高代码性能,通过对比纯C语言实现,NEON汇编代码在RGB24到BGR24转换上展现出17倍的速度优势。此外,还提到了NEON内建函数相比于纯C的4倍速度提升,并预告了即将推出的关于ARM64体系结构与编程的视频课程。

6812

被折叠的 条评论
为什么被折叠?



