Mam klasę, która używa interfejsu API systemu Android TTS do transkrypcji tekstu na dźwięk. Potrafię kontrolować wysokość i szybkość; ale zauważyłem, że silnik wymaga ciągu tekstowego, a także obiektu mieszającego. Zauważyłem, że niektóre słowa są wymawiane zbyt szybko, aby można je było łatwo rozpoznać, a fleksja wydaje się zbyt nienaturalna. Czy istnieje sposób, w jaki mogę kontrolować te dwie rzeczy; prawdopodobnie przez HashMap
? Poniższy sposób używam silnika:Jak kontrolować sposób, w jaki Android TTS odtwarza dźwięk?
mTts = new TextToSpeech(Globals.context, this); // context, listener
}
@Override
public void onInit(int status) {
HashMap<String, String> myHashRender = new HashMap();
myHashRender.put(TextToSpeech.Engine.KEY_PARAM_UTTERANCE_ID, speech);
mTts.setPitch(0.8f);
mTts.setSpeechRate(0.6f);
mTts.synthesizeToFile(speech, myHashRender, fileOutPath);
while (mTts.isSpeaking()) try {
Thread.sleep(100);
} catch (InterruptedException e) {
e.printStackTrace();
}
mTts.stop();
mTts.shutdown();
Google TTS obecnie nie obsługuje zmiany fleksji ani nie obsługuje wbudowanych tagów prozdrowotnych zdefiniowanych w [SSML] (http://help.voxeo.com/go/help/xml.vxml.elements.prosody). Możliwe, że inne silniki TTS obsługują te funkcje, ale nie jestem tego świadomy. – alanv
Dlaczego więc metoda przyjmuje hashmap i ciąg znaków? – motoku
Istnieją parametry, które można ustawić, ale żaden z nich nie kontroluje prozodii typu fleksja lub słowo. – alanv