日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

c语言4x4矩形转置,最快的转置4x4字节矩阵的方法。

發(fā)布時(shí)間:2025/3/19 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 c语言4x4矩形转置,最快的转置4x4字节矩阵的方法。 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

7

Let me rephrase your question: you're asking for a C- or C++-only solution that is portable. Then:

讓我重新解釋一下你的問題:你要求的是一個(gè)可移植的C或c++的解決方案。然后:

void transpose(uint32_t const in[4], uint32_t out[4]) {

// A B C D A E I M

// E F G H B F J N

// I J K L C G K O

// M N O P D H L P

out[0] = in[0] & 0xFF000000U; // A . . .

out[1] = in[1] & 0x00FF0000U; // . F . .

out[2] = in[2] & 0x0000FF00U; // . . K .

out[3] = in[3] & 0x000000FFU; // . . . P

out[1] |= (in[0] << 8) & 0xFF000000U; // B F . .

out[2] |= (in[0] << 16) & 0xFF000000U; // C . K .

out[3] |= (in[0] << 24); // D . . P

out[0] |= (in[1] >> 8) & 0x00FF0000U; // A E . .

out[2] |= (in[1] << 8) & 0x00FF0000U; // C G K .

out[3] |= (in[1] << 16) & 0x00FF0000U; // D H . P

out[0] |= (in[2] >> 16) & 0x0000FF00U; // A E I .

out[1] |= (in[2] >> 8) & 0x0000FF00U; // B F J .

out[3] |= (in[2] << 8) & 0x0000FF00U; // D H L P

out[0] |= (in[3] >> 24); // A E I M

out[1] |= (in[3] >> 8) & 0x000000FFU; // B F J N

out[2] |= (in[3] << 8) & 0x000000FFU; // C G K O

}

I don't see how it could be answered any other way, since then you'd be depending on a particular compiler compiling it in a particular way, etc.

我看不出它是怎么回答的,因?yàn)槟銜?huì)依賴于特定的編譯器以特定的方式編譯它,等等。

Of course if those manipulations themselves can be somehow simplified, it'd help. So that's the only avenue of further pursuit here. Nothing stands out so far, but then it's been a long day for me.

當(dāng)然,如果這些操作本身可以被簡化,它會(huì)有所幫助。所以這是唯一的進(jìn)一步追求的途徑。到目前為止,一切都還不明朗,但對(duì)我來說,這是漫長的一天。

So far, the cost is 12 shifts, 12 ORs, 16 ANDs. If the compiler and platform are any good, it can be done in 9 32 bit registers.

到目前為止,成本是12個(gè)班,12個(gè),16個(gè)。如果編譯器和平臺(tái)是好的,可以在9 32位寄存器中完成。

If the compiler is very sad, or the platform doesn't have a barrel shifter, then some casting could help extol the fact that the shifts and masks are just byte extractions:

如果編譯器很悲傷,或者平臺(tái)沒有一個(gè)桶移器,那么一些轉(zhuǎn)換可以幫助說明轉(zhuǎn)換和掩碼只是字節(jié)提取的事實(shí):

void transpose(uint8_t const in[16], uint8_t out[16]) {

// A B C D A E I M

// E F G H B F J N

// I J K L C G K O

// M N O P D H L P

out[0] = in[0]; // A . . .

out[1] = in[4]; // A E . .

out[2] = in[8]; // A E I .

out[3] = in[12]; // A E I M

out[4] = in[1]; // B . . .

out[5] = in[5]; // B F . .

out[6] = in[9]; // B F J .

out[7] = in[13]; // B F J N

out[8] = in[2]; // C . . .

out[9] = in[6]; // C G . .

out[10] = in[10]; // C G K .

out[11] = in[14]; // C G K O

out[12] = in[3]; // D . . .

out[13] = in[7]; // D H . .

out[14] = in[11]; // D H L .

out[15] = in[15]; // D H L P

}

If you really want to shuffle it in-place, then the following would do.

如果你真的想把它放在合適的位置,那么下面的就可以了。

void transpose(uint8_t m[16]) {

std::swap(m[1], m[4]);

std::swap(m[2], m[8]);

std::swap(m[3], m[12]);

std::swap(m[6], m[9]);

std::swap(m[7], m[13]);

std::swap(m[11], m[14]);

}

The byte-oriented versions may well produce worse code on modern platforms. Only a benchmark can tell.

面向字節(jié)的版本可能會(huì)在現(xiàn)代平臺(tái)上產(chǎn)生更糟糕的代碼。只有一個(gè)基準(zhǔn)可以說明。

總結(jié)

以上是生活随笔為你收集整理的c语言4x4矩形转置,最快的转置4x4字节矩阵的方法。的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。