Szukam wysokiej wydajności sumy multiscan/multi prefix-sum (wiele wierszy w jednym wykonaniu jądra) dla mojego projektu w CUDA. Próbowałem tej z biblioteki Thrust, ale jest zbyt powolny. Również zawie
Używam CUDA/Thrust/CUDPP. Jak rozumiem, w kompresji Stream niektóre elementy w tablicy są oznaczone jako nieprawidłowe, a następnie "usunięte". Co tak naprawdę oznacza "usunięcie"? Załóżmy oryginalną