Das Aufteilen eines Songs in separate Vocals und Instrumente war schon immer ein Problem für Produzenten, DJs und alle anderen, die mit isoliertem Audio herumspielen möchten. Es gibt viele Möglichkeiten, dies zu tun, aber der Prozess kann zeitaufwändig sein und die Ergebnisse sind oft unvollständig. Ein neues Open-Source-KI-Tool macht diese knifflige Aufgabe schneller und einfacher.
Die Software heißt Spleeter und wurde vom Musikstreamingdienst Deezer zu Forschungszwecken entwickelt. Gestern hat das Unternehmen es als Open-Source-Paket veröffentlicht und den Code auf Github veröffentlicht, den jeder herunterladen und verwenden kann. Füttern Sie einfach Spleeter eine Audiodatei und es spleets teilt sie in zwei, vier oder fünf separate Audiospuren als Stämme bekannt. Die Ergebnisse sind nicht perfekt, aber sie sind hervorragend verwendbar und Spleeter selbst ist sehr schnell. Wenn es auf einer dedizierten GPU ausgeführt wird, kann es Audiodateien 100-mal schneller als in Echtzeit in vier Stämme aufteilen.
Sie können sich unten ein Beispiel der Software anhören, die an David Bowies „Changes“ arbeitet. Es gibt ein paar Audio-Artefakte sowohl in den Vocal-Only- als auch in den Band-Only-Stems, aber die Gesamtergebnisse sind fantastisch. Und wenn Bowie nicht dein Ding ist, hier ist ein weiteres Spleeter-Beispiel für diese zeitlose Ballade von Liebe und Verlust: „Scatman (Ski-Ba-Bop-Ba-Dop-Bop).“
Der Technologe Andy Baio hat einen ausgezeichneten Blogbeitrag über Spleeter mit vielen seiner eigenen Beispiele geschrieben. Baio sagt, dass die isolierten Vocals, die von der Software produziert werden, „manchmal ein Roboter-Autotuning-Gefühl bekommen, aber die Menge an Bleed ist im Vergleich zu anderen Lösungen schockierend niedrig.“ Sie können sich unten ein von Baio generiertes Beispiel anhören, in dem Spleeter auf Marvin Gayes „I Heard It Through the Grapevine“ läuft.“ (Aber klicken Sie sich auf jeden Fall durch seinen ursprünglichen Beitrag, wenn Sie mehr isolierte Gesangsspuren von Lil Nas X, Lizzo, Led Zeppelin und anderen hören möchten.)
Marvin Gaye – „I Heard It Through the Grapevine“
Baio weist darauf hin, dass Spleeter auch für alle, die Mashups erstellen möchten, sehr nützlich sein wird, da er sich mit einer unheiligen Union of the Friends-Titelmelodie („I’ll Be There for You“ von den Rembrandts) mit den Texten von Billy Joels „We Didn’t Start the Fire.“
Dieses Tool scheint äußerst leistungsfähig zu sein, aber seien Sie gewarnt: Sie benötigen einige technische Kenntnisse, um es zu verwenden. Es sei denn, Sie spielen regelmäßig mit Software wie Python oder Googles AI-Toolkit TensorFlow (das zum Trainieren von Spleeter verwendet wurde), müssen Sie einige Programme herunterladen, um alles zum Laufen zu bringen. Und Sie müssen sich mit einer Befehlszeileneingabe (wenn auch einer sehr einfachen) anstelle einer leichter zugänglichen visuellen Oberfläche vertraut machen.
Deezer stellt fest, dass dies nicht das erste Mal ist, dass Menschen maschinelles Lernen einsetzen, um diese Aufgabe zu automatisieren, und dass die Erfolge des Unternehmens auf vielen früheren Forschungen beruhen. Laut Aurelien Herault, Chief Data and Research Officer von Deezer, hat das Unternehmen seine Software auf 20,000-Musiktiteln mit vorisoliertem Gesang in einer Reihe von Genres trainiert. Aus diesen Informationen lernte die Software, wie man die Spuren selbst isoliert.
Insgesamt ist Spleeter ein weiteres fantastisches Beispiel dafür, wie KI-Tools knifflige kreative Arbeiten vereinfachen können. Maschinelles Lernen wird derzeit verwendet, um eine Reihe zeitaufwändiger Aufgaben zu automatisieren, vom Entfernen von Hintergründen auf Bildern bis zum Hochskalieren von Texturen in alten Videospielen. Und zunehmend werden diese Tools in Consumer-Software integriert, von Adobes Photoshop bis hin zu neuen Konkurrenten wie Runway ML.Deezer sagt, dass es keine Pläne hat, Spleeter in ein Consumer-Tool zu verwandeln, aber andere könnten ihre Arbeit nehmen und eine einfache Schnittstelle darauf schlagen. Die offensichtlichen Anwendungen sind für DJs und Produzenten, die isolierten Gesang in Mixe integrieren möchten, oder für Leute, die Homebrew-Karaoke-Backing-Tracks erstellen möchten. (Solche Aktivitäten entsprechen möglicherweise nicht dem Urheberrecht, je nachdem, wie das Endprodukt vertrieben wird.)
Deezer selbst verwendet Spleeter für eine Reihe von Forschungsanwendungen, die zur Verbesserung seines Streaming-Dienstes beitragen. „Intern nutzen wir es als Vorverarbeitungswerkzeug für komplexe Forschungsaufgaben wie Musikkategorisierung, Transkription und Spracherkennung“, sagt Herault.
Oder natürlich können Sie es einfach verwenden, um den Scatman besser in den Griff zu bekommen. Ski-bi dibby dib yo da dub dub.