Szukam sposobu na dopasowanie znanego zestawu danych, powiedzmy listę plików MP3 lub wav, z których każda jest próbką osoby mówiącej. W tym momencie wiem, że plik ABC mówi o osobie X.Sfinks CMU do rozpoznawania głosu/głośników
Chciałbym następnie wziąć kolejną próbkę i wykonać dopasowanie głosowe, aby pokazać, kto jest najbardziej prawdopodobny, biorąc pod uwagę znany zestaw danych.
Co więcej, niekoniecznie muszę przejmować się tym, co powiedziała osoba, o ile mogę znaleźć dopasowanie, tj. Nie potrzebuję żadnego przepisywania lub w inny sposób.
Jestem świadomy, że CMU Sphinx nie rozpoznaje głosu i jest używany przede wszystkim do komunikacji głosowej z tekstem, ale widziałem inne systemy, na przykład: Duszę głośnika LIUM (http: //cmusphinx.sourceforge. net/wiki/speakerdiarization) lub projekt VoiceID (https://code.google.com/p/voiceid/), który wykorzystuje CMU jako bazę dla tego typu pracy.
Jeśli mam używać CMU, jak mogę dopasować głos?
Co więcej, jeśli CMU Sphinx nie jest najlepszą strukturą, czy istnieje alternatywa open source?
Jakąkolwiek kontynuację? Co ty zrobiłeś? Udało Ci się? – Dariusz