dzielenie utworu na oddzielne wokale i instrumenty zawsze było bólem głowy dla producentów, DJ-ów i każdego, kto chce bawić się izolowanym dźwiękiem. Istnieje wiele sposobów, aby to zrobić, ale proces może być czasochłonne i wyniki często niedoskonałe. Nowe narzędzie AI open source sprawia, że to trudne zadanie jest szybsze i łatwiejsze.
oprogramowanie nazywa się Spleeter i zostało opracowane przez serwis strumieniowania muzyki Deezer do celów badawczych. Wczoraj firma wydała go jako pakiet open-source, umieszczając kod na Githubie, aby każdy mógł go pobrać i użyć. Wystarczy podać Spleeter plik audio i spleets dzieli go na dwie, cztery lub pięć oddzielnych ścieżek audio znanych jako stems. Wyniki nie są doskonałe, ale są wyjątkowo użyteczne, a sam Spleeter jest bardzo szybki. Podczas pracy na dedykowanym GPU może dzielić pliki audio na cztery pędy 100 razy szybciej niż w czasie rzeczywistym.
poniżej możesz posłuchać przykładu oprogramowania pracującego nad „zmianami” Davida Bowiego. Istnieje kilka artefaktów audio zarówno w wokalu, jak i tylko w zespole, ale ogólne wyniki są fantastyczne. A jeśli Bowie nie jest twoja sprawa, oto kolejny przykład Spleetera dla tej ponadczasowej ballady o miłości i stracie: „Scatman (Ski-Ba-Bop-Ba-Dop-Bop).”
Technolog Andy Baio napisał doskonały post na blogu o Spleeterze z mnóstwem własnych przykładów. Baio mówi, że odizolowane wokale produkowane przez oprogramowanie ” czasami czują się zautomatyzowane, ale ilość krwawienia jest szokująco niska w porównaniu z innymi rozwiązaniami.”Poniżej możesz posłuchać przykładu wygenerowanego przez Baio ze Spleeterem działającym na płycie Marvina Gaye’ a ” I Heard it Through the Grapevine.”(Ale zdecydowanie kliknij na jego oryginalny post, jeśli chcesz usłyszeć więcej izolowanych utworów wokalnych z Lil Nas X, Lizzo, Led Zeppelin i innych.)
Marvin Gaye – „i Heard It Through The Grapevine”
Baio zwraca uwagę, że Spleeter będzie również bardzo przydatny dla każdego, kto chce tworzyć mashupy, ponieważ demonstruje się z unholy union of the Friends theme tune („I’ ll be There for You „zespołu Rembrandts) z tekstami z utworu Billy 'ego Joela” we Didn ’ t Start the ognia.”
To narzędzie wydaje się niezwykle wydajne, ale ostrzegamy: będziesz potrzebował trochę wiedzy technicznej, aby z niego korzystać. Jeśli nie grasz regularnie z oprogramowaniem takim jak Python lub Google AI toolkit TensorFlow (który był używany do szkolenia Spleeter), będziesz musiał pobrać kilka programów, aby wszystko działało. I będziesz musiał czuć się komfortowo używając wejścia wiersza poleceń (choć bardzo prostego) zamiast bardziej dostępnego interfejsu wizualnego.
Deezer zauważa, że nie jest to pierwszy raz, gdy ludzie używają uczenia maszynowego do automatyzacji tego zadania, a osiągnięcia firmy opierają się na wielu wcześniejszych badaniach. Rozmawiając z The Verge przez e-mail, Dyrektor ds. danych i badań Deezer Aurelien Herault mówi, że firma przeszkoliła swoje oprogramowanie w zakresie 20 000 utworów muzycznych z wstępnie izolowanymi wokalami w różnych gatunkach. Z tych informacji oprogramowanie nauczyło się, jak izolować same ścieżki.
Ogólnie Rzecz Biorąc, Spleeter jest kolejnym fantastycznym przykładem tego, jak narzędzia AI mogą uprościć kreatywną pracę. Uczenie maszynowe jest obecnie wykorzystywane do automatyzacji szeregu czasochłonnych zadań, od usuwania tła na zdjęciach po skalowanie tekstur w starych grach wideo. Coraz częściej narzędzia te są włączane do oprogramowania konsumenckiego, od Photoshopa Adobe do nowych konkurentów, takich jak Runway ML.
Deezer twierdzi, że nie planuje zmienić Spleetera w narzędzie konsumenckie, ale inni mogliby wziąć swoją pracę i umieścić na nim prosty interfejs. Oczywiste zastosowania są dla DJ-ów i producentów, którzy chcą zintegrować izolowane wokale w miksy, lub dla ludzi, którzy chcą tworzyć podkłady homebrew karaoke. (Takie działania mogą nie być zgodne z prawem autorskim w zależności od sposobu dystrybucji produktu końcowego.)
Deezer sam używa Spleetera do wielu zastosowań badawczych, które pomagają ulepszyć jego usługę przesyłania strumieniowego. „Wewnętrznie używamy go jako narzędzia wstępnego przetwarzania do złożonych zadań badawczych, takich jak Kategoryzacja muzyki, transkrypcja i wykrywanie języka”, mówi Herault.
lub, oczywiście, możesz go po prostu użyć, aby lepiej poradzić sobie z Scatmanem. Ski-BI Digby DIB yo da dub dub.