Rozumiem rolę węzła odchylenia w sieciach neuronowych i dlaczego jest on ważny dla zmiany funkcji aktywacji w małych sieciach. Moje pytanie brzmi: czy odchylenie jest nadal ważne w bardzo dużych sieciach (dokładniej, splotowa sieć neuronowa do rozpoznawania obrazów za pomocą funkcji aktywacji ReLu, 3 warstw splotowych, 2 ukrytych warstw i ponad 100 000 połączeń), czy też jej wpływ zagubiony przez samą liczbę pojawiających się aktywacji?Czy węzeł bias jest niezbędny w bardzo dużych sieciach neuronowych?
Powód, dla którego pytam, ponieważ w przeszłości zbudowałem sieci, w których zapomniałem wprowadzić węzeł odchylenia, jednak po dodaniu jednego zaobserwowano nieznaczną różnicę w wydajności. Czy mogło to być przypadkowe, ponieważ zestaw danych specyficznych nie wymagał uprzedzeń? Czy muszę inicjować odchylenie o większej wartości w dużych sieciach? Wszelkie inne porady byłyby mile widziane.
Ah, okazuje się, że odchylenie jest małe, więc domyślam się, że zbiór danych musi być już w rozsądnym środku. Pozdrawiam za odpowiedź. – Hungry