2012-11-30 9 views
5

Czytałem ten przewodnik na temat speech recognition i wspomniałem, że potrzebuję trzech elementów do rozpoznawania mowy: Model akustyczny, Model języka, Słownik fonetyczny.Python PocketSphinx i ustawienie modelu akustycznego?

Chciałem zacząć grać z tym python demo, który wykorzystuje Gstreamer do przechwytywania z mikrofonu i ponownego próbkowania do 8kHz, 16-bitowego dźwięku PCM.

widzę, że mogę podać model języka i słownika fonetyczne i używam jednego [dostarczonego przez CMU]:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/ 

Ale jestem zdezorientowany, gdzie należy określić model akustyczny? Czy gstreamer ma swój własny model akustyczny, którego używam domyślnie? Miałem nadzieję, że do korzystania z modelu akustycznego zawartych tutaj na nieco lepszych wyników:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/ 

(. Przepraszam hiperłączy nie mogę dodawać więcej niż 2 linki z rep mniej niż 10)

Odpowiedz

3

Ale Jestem zdezorientowany, gdzie powinienem określić model akustyczny?

Można określić model z właściwością hmm elementu gstreamer. Tak jak jest to ujęte w tutorialu

asr.set_property('lm', '/home/user/mylanguagemodel.lm') 

Można użyć

asr.set_property('hmm', '/home/user/acoustic_model_folder') 

Czy GStreamer mieć swój własny model akustyczny mam niejawnie użyciu?

Tak, domyślnie używa US English modelu hub4wsj_sc_8k z dystrybucji