Obecnie trenuję małe zestawy danych logo podobne do Flickrlogos-32 z głębokimi CNN. Do szkolenia większych sieci potrzebuję więcej zestawu danych, dzięki czemu wykorzystuję augmentację. Najlepsze, co teraz robię, to używanie transformacji afinicznych (cecha normalizacji, centrum cech, obrót, przesunięcie wysokości, poziome pionowe obrócenie). Ale w przypadku większych sieci potrzebuję więcej ulepszeń. Próbowałem przeszukać krajowe dane naukowe kaggle pod numerem forum, ale nie mogłem uzyskać dużej pomocy. Jest kod dla niektórych metod podanych here, ale nie jestem pewien, co może być przydatne. Jakie są inne (lub lepsze) techniki powiększania danych obrazu, które można zastosować do tego typu (lub w jakimkolwiek innym obrazie) zestawu danych innego niż transformacje afiniczne?Techniki augmentacji danych dla małych zestawów danych obrazu?
12
A
Odpowiedz
12
Dobrym podsumowanie można znaleźć here sekcja 1 na danych Powiększanie: tak mianowicie koziołki, losowych upraw i kolor drgania a także hałas oświetlenie:
Krizhevsky et al. zaproponował fantazyjne PCA podczas szkolenia słynnego Alex-Net w 2012 roku. Fancy PCA zmienia intensywność kanałów RGB w obrazach treningowych.
Można również rzucić okiem na wyzwanie Kaggle Galaxy Zoo: zwycięzcy napisali: very detailed blog post. Obejmuje ona tego samego rodzaju technik:
- rotacji
- tłumaczenia,
- powiększenia
- koziołki,
- kolor perturbacji.
Jak stwierdzono, robią to również "w czasie rzeczywistym, tj. Podczas treningu".
Na przykład tutaj jest praktyczny Torchimplementation przez Facebook (dla szkolenia ResNet).
2
Zbierałem kilka technik augmentacji w my masters thesis, page 80. Obejmuje ono:
- zoom,
- Crop
- odbija (poziomo/pionowo)
- obrotów
- skalowania
- ścinania
- zmiany kanału (RGB, HSV)
- kontrast
- hałas,
- winietowanie