Czytałem ten przewodnik na temat speech recognition i wspomniałem, że potrzebuję trzech elementów do rozpoznawania mowy: Model akustyczny, Model języka, Słownik fonetyczny.Python PocketSphinx i ustawienie modelu akustycznego?
Chciałem zacząć grać z tym python demo, który wykorzystuje Gstreamer do przechwytywania z mikrofonu i ponownego próbkowania do 8kHz, 16-bitowego dźwięku PCM.
widzę, że mogę podać model języka i słownika fonetyczne i używam jednego [dostarczonego przez CMU]:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/
Ale jestem zdezorientowany, gdzie należy określić model akustyczny? Czy gstreamer ma swój własny model akustyczny, którego używam domyślnie? Miałem nadzieję, że do korzystania z modelu akustycznego zawartych tutaj na nieco lepszych wyników:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/
(. Przepraszam hiperłączy nie mogę dodawać więcej niż 2 linki z rep mniej niż 10)