Jestem nowy w instrukcjach SSE2. Znalazłem instrukcję _mm_add_epi8
, która może dodać dwa elementy tablicy. Ale chcę instrukcji SSE, które można dodać wszystkie elementy tablicy.Instrukcje SSE, aby dodać wszystkie elementy tablicy
starałem się rozwijać tę koncepcję użyciu tego kodu:
#include <iostream>
#include <conio.h>
#include <emmintrin.h>
void sse(unsigned char* a,unsigned char* b);
void main()
{
/*unsigned char *arr;
arr=(unsigned char *)malloc(50);*/
unsigned char arr[]={'a','b','c','d','e','f','i','j','k','l','m','n','o','p','q','r','a','b','c','d','e','f','i','j','k','l','m','n','o','p','q','r'};
unsigned char *next_arr=arr+16;
for(int i=0;i<16;i++)
printf("%d,%c ",next_arr[i],next_arr[i]);
sse(arr,next_arr);
getch();
}
void sse(unsigned char* a,unsigned char* b)
{
__m128i* l = (__m128i*)a;
__m128i* r = (__m128i*)b;
__m128i result;
result= _mm_add_epi8(*l, *r);
unsigned char *p;
p=(unsigned char *)&result;
for(int i=0;i<16;i++)
printf("%d ",p[i]);
printf("\n");
l=(__m128i*)p;
r=(__m128i*)(p+8);
result=_mm_add_epi8(*l, *r);
p=(unsigned char *)&result;
printf("%d ",p[0]);
l=(__m128i*)p;
r=(__m128i*)(p+4);
result=_mm_add_epi8(*l, *r);
p=(unsigned char *)&result;
l=(__m128i*)p;
r=(__m128i*)(p+2);
result=_mm_add_epi8(*l, *r);
p=(unsigned char *)&result;
l=(__m128i*)p;
r=(__m128i*)(p+1);
result=_mm_add_epi8(*l, *r);
p=(unsigned char *)&result;
printf("result =%d ",p[0]);
}
Więc może ktoś mi powiedzieć jak to jest możliwe, aby dodać wszystkie elementy tablicy przy użyciu instrukcji SSE2?
Każda pomoc zostanie doceniona.
Zamknięty jako duplikat, ponieważ 'psadbw' jest * znacząco * bardziej efektywny do sumowania elementów 8-bitowych bez przepełnienia, a odpowiedź tam używa. Użyj go z 'paddd' lub' paddq' dla dużych tablic. –