Jaki jest mój najlepszy zakład do obliczenia iloczynu iloczynu wektora x z dużą liczbą wektorów y_i, gdzie x i y_i mają długość 10k lub mniej.Dot product - SSE2 kontra BLAS
- Przełóż y w macierzy i użyj zoptymalizowanej procedury
s/dgemv
? - A może spróbuj ręcznie kodować rozwiązanie SSE2 (nie mam SSE3, zgodnie z cpuinfo).
Po prostu szukam ogólnych wskazówek tutaj, więc wszelkie sugestie będą przydatne.
I tak, potrzebuję wydajności. Dzięki za każde światło.
Które kompilatora używasz? –