2014-04-08 17 views
5

Czy to możliwe, programowo, aby wziąć czyjąś próbki głosowe i stworzyć niepowtarzalny tonu/nieruchomość które mogłyby zostać wykorzystane do stworzenia syntezatora mowy?Synteza mowy - Tworzenie niestandardowych brzmień

Na przykład, osoba A rejestruje się. Z próbki głosu powstaje unikalny dźwięk, który zamienia się w syntezę mowy. Dzięki temu ludzie mogą używać tego syntetycznego głosu w oprogramowaniu do konwersji tekstu na mowę, pisząc dowolny tekst, który chcieliby przeczytać w głosie osoby A.

Czy jest możliwe w dzisiejszych warunkach? Wiem, że są firmy, które robią to profesjonalnie, ale ogólnie rzecz biorąc, czy to możliwe, aby to oprogramowanie działało?

+0

http://en.wikipedia.org/wiki/Siri, http://en.wikipedia.org/wiki/Google_Now, etc ... – ElGavilan

+0

Jeśli dobrze rozumiem, o co prosisz, odpowiem "nie" ". Nie można wygenerować "pełnego głosu", a więc głosu nadającego się do arbitralnych "słów" z jednego "tonu". Potrzebujesz oddzielnych próbek dla _dźwiękowych dźwięków, zwykle przynajmniej dla diffonów lub lepszych trąbek. Tak więc pełny katalog dźwięków każdego głośnika. – arkascha

+0

OK, dziękuję bardzo, arkascha. Po prostu myślałem, że tak jak każdy człowiek ma unikalny odcisk palca, być może różne głosy są odróżniane przez jakąś właściwość. I ElGavilan, Siri nie działa w ten sposób. Używa narracji nagranych przez prawdziwą kobietę. – Travier

Odpowiedz

4

wykorzystaniem metod adaptacyjnych głośnik można osiągnąć jakieś wyniki z porównywalnie kilku próbek szkoleniowych, ale nadal trzeba mieć jakieś sto zdań osoby - najlepiej z transkrypcji fonetycznej.

Raz mieliśmy to jako małe ćwiczenie laboratoryjne dla studentów, aby nagrać własne głosy i wytrenować model głosu za pomocą HTS (http://hts.sp.nitech.ac.jp/). Podejście „najprostsza” za pomocą HTS jest pobranie „Speaker treningowy zależny demo” z tej strony i wymienić próbki mowy szkolenia z własnych nagrań (z tych samych zdań!). Zrobiliśmy to dla innego języka z naszym własnym pakietem.

Myślę, że MaryTTS (http://mary.dfki.de/) ma kilka bardziej wygodnych narzędzi do pomocy w tym procesie, ale nigdy z nim nie pracowałem.

Ale wciąż - dla wysokiej jakości brzmień, należy mieć tysiące nagranych zdań.