再利用permute指令对源值进行重排,以及使用 or 指令将2个shuffle的结果进行合并,于是完成了全256位索引的换位。它不需要blend指令,并节流了掩码盘算的开销,服从非常高。
将上述办法翻译为 C# 语言的代码,便能实现单向量换位的方法 YShuffleKernel。源码在 WVectorTraits256Avx2.YS.cs。
__m256i _mm256_shuffle_epi8 (__m256i a, __m256i b)
#include <immintrin.h>
Instruction: vpshufb ymm, ymm, ymm
CPUID Flags: AVX2
Description
Shuffle 8-bit integers in a within 128-bit lanes according to shuffle control mask in the corresponding 8-bit element of b, and store the results in dst.