當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

neon 指令 c语言,NEON初步使用

發(fā)布時間：2023/12/8 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了 neon 指令 c语言,NEON初步使用小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

指令集并行是CPU的優(yōu)化加速的一個方向，在ARM芯片主要是利用NEON指令集實(shí)現(xiàn)指令集并行

NEON簡介

NEON就是高級SIMD，單指令多數(shù)據(jù)，適用于圖像、音頻等數(shù)據(jù)處理。ARMv6就叫SIMD，ARMv7開始叫NEON，aarch64又有點(diǎn)不一樣，下文只針對ARMv7或者ARMv8 aarch32的NEON進(jìn)行

NEON有32個64位長的寄存器(D0-D31，每個D可以裝2個浮點(diǎn)數(shù)據(jù))，也可以看做為16個128位長的寄存器(Q0-Q15，每個Q可以裝4個浮點(diǎn)數(shù)據(jù))，所以一句指令最多可以同時實(shí)現(xiàn)4個乘法操作，理論速度可以提升4倍

如何使用NEON

三種使用NEON的方法

庫函數(shù)

官方給了2個庫可以使用，OpenMax DL和Ne10，后者在github上有，也是我用來參考學(xué)習(xí)的主要對象

匯編函數(shù)

用匯編語句編寫.s文件

在C/C++代碼中嵌入?yún)R編語句(inline assembly)

內(nèi)聯(lián)函數(shù)(intrinsics function)

在C代碼中直接嵌入內(nèi)聯(lián)函數(shù)用以實(shí)現(xiàn)功能，但是性能會取決于編譯器和具體設(shè)備

匯編函數(shù)基礎(chǔ)

想要高效利用NEON的話，匯編是避不開的。下面是ARM匯編相關(guān)的準(zhǔn)備知識

參考資料

匯編基礎(chǔ)原理

b、bx、bl指令

arm匯編指令

GNU ARM Assembler Quick Reference

特殊寄存器

TODO: sb、ip是干嘛的

匯編函數(shù)文件directive(指令、偽操作)

常見directive(指令、偽操作)

參數(shù)

說明

.text

后面那些指令都屬于.text段

.syntax

unified

說明下面的指令是ARM和THUMB通用格式

TODO:不太懂

.align

4字節(jié)對齊

.balign

TODO:不太懂

.global

xx_func

函數(shù)xx_func可以被外部文件調(diào)用訪問

.thumb_func

指明一個函數(shù)是thumb指令集的函數(shù)

TODO:不太懂

編譯調(diào)用匯編函數(shù)

編譯匯編文件neon.s的命令需要加選項(xiàng)-mfpu=neon: arm-linux-gnueabihf-gcc -mfpu=neon -c neon.s -o neon.o

主文件main.o鏈接neon.o的命令： arm-linux-gnueabihf-gcc neon.o main.o -o test

相關(guān)編譯參數(shù)

堆棧讀取參數(shù)

TODO:匯編讀取多參數(shù)

參考鏈接

ARM匯編基礎(chǔ)指令

ldr

ldr R0, [R1]! @將內(nèi)存地址為R1的數(shù)據(jù)加載到R0,并將R1指向下一個位置

ldr R0，[R1，＃8] ；將存儲器地址為R1+8的字?jǐn)?shù)據(jù)讀入寄存器R0。

str

str R0，[R1，＃8] ；將R0中的字?jǐn)?shù)據(jù)寫入以R1＋8為地址的存儲器中。

b 無條件跳轉(zhuǎn)

b label_fun

bl 帶返回的跳轉(zhuǎn)，保存當(dāng)前位置到lr，用于子函數(shù)調(diào)用

bl label_fun @bx lr或者mov pc, lr實(shí)現(xiàn)返回

bx 跳轉(zhuǎn)并切換狀態(tài)，一般用于子函數(shù)返回

bx lr

bgt 比較跳轉(zhuǎn)，如果經(jīng)過之前某句操作后狀態(tài)寄存器是大于(great than)就跳轉(zhuǎn)

cmp r0, #5

bgt label_foo

and 按位與

and r3, r2, #3 @ r3 = r2 % 4

asr 右移

asr r2, r2, #2 @ r2 = r2 >> 2

cbz 比較跳轉(zhuǎn)，如果為零就跳到后面的指令

cbz r3, label_foo

sub 減命令

sub r0, r1, r2 @ r0 = r1 - r2

subs 減命令，并更新狀態(tài)寄存器

同sub一樣，多的更新狀態(tài)寄存器功能可以配合bgt

NEON矢量讀取命令vld1

vld1.32 {d0}, [r1]@從內(nèi)存地址r1開始讀取2個32位數(shù)據(jù)到d0里，因?yàn)閐能存2個32位浮點(diǎn)數(shù)

vld1.32 {q0}, [r1]@從內(nèi)存地址r1開始讀取4個32位數(shù)據(jù)到q0里，因?yàn)閝能存2個32位浮點(diǎn)數(shù)

NEON矢量存儲命令vst1

vst1.32 {d0}, [r1]@將d0里的2個32位浮點(diǎn)數(shù)寫到內(nèi)存地址r1里

vst1.32 {q0}, [r1]@將q0里的4個32位浮點(diǎn)數(shù)寫到內(nèi)存地址r1里

NEON矢量加命令vadd

圖文并茂，不用多說 vadd.i16 d3, d0, d1 @ d3 = d0 + d1

NEON簡單對比實(shí)驗(yàn)

github鏈接記得點(diǎn)贊

C語言實(shí)現(xiàn) void mul_float_c(float *dst, float *src1, float *src2, int count)

{

int i = 0, j = 0;

for (j = 0; j < count; j++)

for (i = 0; i < 4; i++)

*(dst++) = *(src1++) * *(src2++);

}

匯編實(shí)現(xiàn)assembly .text

.syntax unified

.align 4

.global mul_float_neon

.thumb

.thumb_func

mul_float_neon:

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

@ r0: *dst & current dst entry's address浮點(diǎn)型指針，存儲結(jié)果

@ r1: *src1 & current src1 entry's address浮點(diǎn)型指針，操作對象1

@ r2: *src2 & current src2 entry's address浮點(diǎn)型指針，操作對象2

@ r3: count,循環(huán)次數(shù)

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

.loop:

cbz r3, .return

subs r3, r3, #1

vld1.32 {q0}, [r1]!

vld1.32 {q1}, [r2]! @ for current set

@ calculate values for current set

vmul.f32 q3, q0, q1 @ q3 = q0 + q1

@ store the result for current set

vst1.32 {q3}, [r0]!

b .loop

.return:

mov r0, #0

bx lr

C語言內(nèi)嵌匯編實(shí)現(xiàn)inline assembly void mul_float_neon_inline(float *dst, float *src1, float *src2, int count)

{

asm volatile(

".loop:\n"

"cbz %[count], .return\n"

"subs %[count], %[count], #1\n"

"vld1.32 {q0}, [%[src1]]!\n"

"vld1.32 {q1}, [%[src2]]! @ for current set\n"

"vmul.f32 q3, q0, q1 @ q3 = q0 + q1\n"

"vst1.32 {q3}, [%[dst]]!\n"

"b .loop\n"

".return:\n"

// "mov %[dst], #0\n"//不需要函數(shù)的返回跳轉(zhuǎn)

// "bx lr\n"

: // 解釋返回參數(shù),如[ dst ] "+r"(dst)，有個加號

: [ dst ] "r"(dst), [ src1 ] "r"(src1), [ src2 ] "r"(src2), [ count ] "r"(count)// 解釋輸入?yún)?shù)

: "memory", "q0", "q1", "q3");// 不太懂，但是要加

}

內(nèi)聯(lián)函數(shù)實(shí)現(xiàn)

內(nèi)聯(lián)函數(shù)官方在線文檔 #include//要用neon內(nèi)聯(lián)函數(shù)必須要該頭文件

void add_float_neon(float* dst, float* src1, float* src2, int count)

{

int i;

for (i = 0; i < count; i += 4)

{

float32x4_t in1, in2, out;

in1 = vld1q_f32(src1);

src1 += 4;

in2 = vld1q_f32(src2);

src2 += 4;

out = vaddq_f32(in1, in2);

vst1q_f32(dst, out);

dst +=4;

}

結(jié)果對比和分析 pi@raspberrypi:~/mnt/neon_test $ ./neon_test

mul_float_c used: 0.000095 s

mul_float_neon used: 0.000012 s

mul_float_neon_inline used: 0.000011 s

mul_float_neon_intrinsics used: 0.000059 s

mul_float_c and mul_float_neon result same!!!

mul_float_c and mul_float_inline result same!!!

mul_float_c and mul_float_intrinsics result same!!!

分別用C語言的for循環(huán)、neon的匯編實(shí)現(xiàn)、neon的內(nèi)聯(lián)匯編(inline assembly)、neon的內(nèi)聯(lián)函數(shù)(intrinsics function)這4種方式在A53上實(shí)現(xiàn)4*100次浮點(diǎn)運(yùn)算，可以看出，最快的還是neon匯編實(shí)現(xiàn)，約10倍的速度提升，同時兩種neon匯編的速度一樣沒啥區(qū)別，但是還是建議不用內(nèi)聯(lián)匯編，因?yàn)間db沒法debug，至于為什么會達(dá)到10倍的提升，一方面是neon的矢量乘法有4倍理論提升，還有就是讀數(shù)據(jù)和存數(shù)據(jù)都是4倍提速。而neon的內(nèi)聯(lián)函數(shù)卻只有不到2倍的速度提升，真辣雞

TODO:上述實(shí)驗(yàn)數(shù)據(jù)是在編譯優(yōu)化參數(shù)為debug模式"-O0 -g"的情況下測出來的，但是release模式"-Ofast"會報錯

總結(jié)

來，弄優(yōu)化，學(xué)匯編，用NEON！手動狗頭

總結(jié)

以上是生活随笔為你收集整理的neon 指令 c语言,NEON初步使用的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：三网话费接口API 文档
下一篇： neon浮点运算_NEON简单介绍

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

neon 指令 c语言,NEON初步使用

總結(jié)