Twoje podejście nie będzie działać na każdym walnym przykład muzycznej, z następujących powodów:
Muzyka ze swej natury ma charakter dynamiczny. Znaczy to, że każdy dźwięk obecny w muzyce jest modulowany przez różne okresy ciszy, ataku, podtrzymania, rozpadu, i znowu ciszy, znanej inaczej jako otoczka dźwięku.
Notatki instrumentów muzycznych i ludzkie nuty wokalne nie mogą być prawidłowo zsyntetyzowane jednym tonu. Te nuty muszą być syntezowane przez podstawowy ton i wiele harmonicznych.
Jednak nie wystarczy zsyntetyzować ton podstawowy i harmoniczne nut instrumentu muzycznego lub wokalu, należy również zsyntetyzować kopertę notatki, jak opisano w punkcie 1 powyżej.
Ponadto do syntezy melodyjny fragment w muzyce, czy instrumentalny lub wokalny, trzeba syntezy elementów 1-3 powyżej, dla każdej nuty w przejściu, a trzeba też syntetyzować taktowanie każdej nuty w stosunku do początku przejścia.
Analityczne wydobywanie poszczególnych instrumentów lub ludzkich głosów z końcowego nagrania miksu jest bardzo trudnym problemem, a twoje podejście nie rozwiązuje tego problemu, więc twoje podejście nie może właściwie rozwiązać problemów 1-4.
Krótko mówiąc, każde podejście, które usiłuje wydobyć niemal doskonałą transkrypcję muzyczną z końcowej mieszanki z nagrania muzycznego, stosując rygorystyczne metody analityczne, jest w najgorszym wypadku niemal na pewno skazane na niepowodzenie, a w najlepszym wypadku przypada sfera zaawansowanych badań.
Sposób postępowania z tym impasem zależy od tego, jaki jest cel pracy, o czym OP nie wspomniał.
Czy ta praca będzie wykorzystywana w komercyjnym produkcie, czy jest to projekt hobby?
Jeśli jest to praca komercyjna, uzasadnione są różne inne podejścia (kosztowne lub bardzo kosztowne), ale szczegóły tych podejść zależą od celów pracy.
Jako notatkę zamknięcia, Twój synteza brzmi jak przypadkowych dźwięków ze względu na następujące:
Twój podstawowym detektor tonu jest związany z terminem swoich klatek toczenia FFT, co w efekcie generuje prawdopodobnie fałszywy podstawowym ton w czasie początkowym każdej toczącej się ramki FFT.
Dlaczego wykryte dźwięki podstawowe prawdopodobnie są fałszywe? Ponieważ w sposób arbitralny przycinasz próbkę muzyczną do ramek (FFT), a zatem prawdopodobnie obcinamy wiele równoczesnie brzmiących nut w połowie nut, zniekształcając w ten sposób spektralne znaki nuty.
Nie próbujesz zsyntetyzować kopert wykrytych notatek, ani nie możesz, ponieważ nie ma możliwości uzyskania informacji o kopercie na podstawie analizy.
W związku z tym wynikiem syntezatora jest prawdopodobnie seria czystych sinusów sinusoidalnych, rozłożonych w czasie przez deltę t toczącej się ramki FFT. Każde ćwierkanie może mieć inną częstotliwość, inną wielkość koperty i koperty, które mają prawdopodobnie prostokątny kształt.
Aby zobaczyć złożoną naturę nut, spójrz na tych odnośnikach:
Musical instrument spectra to 102.4 KHz
Musical instrument note spectra and their time-domain envelopes
przestrzegać w szczególności wiele czystych tonów, które tworzą każdą nutę, i złożony kształt obwiedni w dziedzinie czasu każdej nuty. Zmienna synchronizacja wielu nut względem siebie jest dodatkowym istotnym aspektem muzyki, podobnie jak polifonia (wiele głosów jednocześnie) w typowej muzyce.
Wszystkie te elementy muzyki konspirują do ścisłego analitycznego podejścia do autonomicznej transkrypcji muzycznej, niezwykle trudnej.
Być może zainteresuje was fakt, że podstawowym procesem kodowania MP3 jest podstawowy proces polegający na "znalezieniu ważnej części dźwięku i zignorowaniu części, których nie można usłyszeć" (który modeluje się jako wykrywanie wartości szczytowej FFT +). Oczywiście jego idea "ważnej części" jest o wiele bardziej wyszukana. –