2017-01-03 30 views
5

Uczę się sieci neuronowych i próbuję stworzyć system rozpoznawania głośników z tensorflow. Chciałem wiedzieć, jak długość wypowiedzi wpływa na sieć neuronową. Na przykład mam 1000 różnych nagrań dźwiękowych o tej samej długości i 1000 różnych nagrań dźwiękowych o różnych długościach. Jak teoretycznie będzie działać sieć neuronowa z tymi rodzajami danych? Czy sieć neuronowa z bazą danych o tej samej długości będzie lepiej czy gorzej? Czemu?Jak długość wypowiedzi wpływa na sieć neuronową w rozpoznawaniu głośników?

Odpowiedz

1

To zależy od rodzaju sieci neuronowej. Przy takim projekcie zwykle podaje się liczbę neuronów wejściowych, sou nie może podawać danych o dowolnej długości. W przypadku dłuższych sekwencji musisz albo przyciąć swoje dane, albo użyć przesuwanego okna.

Jednak niektóre sieci neuronowe umożliwiają przetwarzanie dowolnej kolejności wejść, np. Recurrent Neural Network. Te ostatnie wydają się być bardzo dobrym kandydatem na twój problem. Here to dobry artykuł opisujący implementację określonego typu RNN, o nazwie Long Short-Term Memory, która działa dobrze z rozpoznawaniem mowy.

1

Zakładam, że twoje pytanie może zostać ponownie sformułowane jako W jaki sposób sieć neuronowa może przetwarzać dźwięk o różnej długości?

Sztuką jest to, że sygnał o dowolnym rozmiarze jest przekształcany w sekwencję wektorów cech o ustalonym rozmiarze. Zobacz moje odpowiedzi here i here.