W 2023 r. sztuczna inteligencja zrewolucjonizuje dźwięk za pomocą generatywnych fal dźwiękowych

W 2023 r. sztuczna inteligencja zrewolucjonizuje dźwięk za pomocą generatywnych fal dźwiękowych

Dziedzina produkcji audio szybko się rozwija, a liczba prac skupiających się na wizji komputerowej (CV) i przetwarzaniu języka naturalnego (NLP) znacznie wzrosła w poprzednim roku. Skłoniło to naukowców z całego świata do zastanowienia się, jakie duże modele językowe (LLM) i głębokie uczenie się mogą wnieść do tego tematu. Najnowsze modele audio, które zostały niedawno wydane, zostaną omówione w tym artykule wraz z tym, w jaki sposób ułatwiają one przyszłe badania w tej dziedzinie.


Pierwszy model nosi nazwę MusicLM i został stworzony przez naukowców z Google oraz IRCAM-Sorbonne Universite. Muzykę stworzoną przez ten model można opisać w tekście jako „relaksującą melodię skrzypiec, której towarzyszy przesterowany gitarowy riff”. Model MusicLM może modyfikować ton i tempo gwizdanej lub nuconej melodii, aby dopasować tenor tekstu z napisami, ponieważ został przeszkolony specjalnie na wstępnie wyszkolonych modułach w2v-BERT, SoundStream i MuLan.


Google sugeruje również SingSong, system, który może generować dźwięk muzyki instrumentalnej w celu dopasowywania wejściowego dźwięku wokalnego. Separacja źródeł oraz ulepszenia w generatywnym modelowaniu dźwięku, dwie znaczące dziedziny technologii muzycznej, są wykorzystywane przez SingSong. Zespół zmodyfikował AudioLM, aby generować instrumenty z określonymi głosami, szkoląc go w oparciu o dane odseparowane od źródła przy użyciu dostępnej na rynku techniki separacji źródła. Naukowcy zaproponowali dwie techniki featuryzacji, aby podnieść jakość izolowanych wokali o 55% w porównaniu z podstawową poprawą AudioLM.


Moûsai to warunkowy tekstowo kaskadowy model dyfuzji, który umożliwia nam tworzenie muzyki stereo 48 kHz w długim kontekście, która jest zależna od kontekstu w ciągu minuty. Został opracowany we współpracy naukowców z ETH Zürich i Instytutu Inteligentnych Systemów im. Maxa Plancka. Model Moûsai został opracowany przez naukowców przy użyciu dwustopniowej kaskadowej dyfuzji, którą można obsługiwać i nauczać przy użyciu zasobów typowych dla szkół wyższych. Trening każdego etapu modelu na procesorze graficznym A100 zajmuje około tygodnia.


AudioLDM, system TTA, który wykorzystuje ciągłe LDM w celu uzyskania najnowocześniejszej jakości generowania, ma zalety pod względem wydajności obliczeniowej i manipulacji dźwiękiem uwarunkowanym tekstem, został wprowadzony przez University of Surrey we współpracy z Imperial College London. Ta metoda jest w stanie trenować LDM bez użycia par język-audio, ucząc się, jak wcześniej tworzyć dźwięk w ukrytej przestrzeni.


Cztery nowe modele — MusicLM, SingSong, Moûsai i AudioLDM — które zostały niedawno wprowadzone na rynek, znacznie ułatwiają dalsze badania w tej dziedzinie. Ostatnie postępy w tworzeniu dźwięku są ekscytujące. Każdy model ma swoją strategię i zestaw zalet, aw wyniku jego zastosowania przewiduje się przyszły rozwój w tej dziedzinie. Istnieją niezliczone korzyści, jakie głębokie uczenie się i duże modele językowe (LLM) mogą zapewnić w tworzeniu dźwięku, a wkrótce prawdopodobnie pojawią się dodatkowe innowacje.

Jarosław Antoszczyk