Die Entwicklung von Fugatto

NVIDIA Figatto

Fugatto (Foundational Generative Audio Transformer Opus 1) ist ein von NVIDIA entwickeltes KI-Tool, mit dem jede beliebige Mischung aus Musik, Stimmen und Geräuschen, die durch Prompts beschrieben werden, erzeugt oder verändert werden kann. Selbstbewusst bezeichnet man es als „World’s Most Flexible Sound Machine“.

Fugatto – ein Modell, das Klänge versteht

KI-basierte Anwendungen sind in der Musikproduktion längst Alltag. Einige Tools haben eher unterstützenden Charakter, andere wollen gleich den gesamten Prozess (oder zumindest große Teile davon) übernehmen.

Der Ansatz von Fugatto ist „ein Modell, das Klänge wie Menschen versteht und erzeugt“, wie es der Komponist/Dirigent und Manager Rafael Valle beschreibt. Musikproduzenten sollen Fugatto beispielsweise nutzen können, um schnell eine Songidee zu entwickeln oder zu bearbeiten und dabei verschiedene Stile, Stimmen und Instrumente auszuprobieren. Darüber hinaus kann sich Valle den Einsatz bei Sprachlern-Tools oder im Bereich interaktiver Spiele vorstellen.

Die Technik hinter der KI

Fugatto ist ein generatives Transformationsmodell, das auf früheren Arbeiten in den Bereichen Sprachmodellierung, Audio-Vocoding und Audioverständnis aufbaut. Die Vollversion verwendet 2,5 Milliarden Parameter und wurde auf einer Reihe von NVIDIA DGX Systemen mit 32 NVIDIA H100 Tensor Core GPUs trainiert.

Für die Erstellung des hybriden Datensatzes von Fugatto wurden Millionen von Audiosamples verwendet. Über die Art und Herkunft dieses Materials schweigt man sich jedoch aus, ist doch dieser Punkt auch schon bei bisherigen KI-Anwendungen nicht nur strittig, sondern möglicherweise auch rechtlich relevant.

Die Herausforderung bestand dann darin, Beziehungen zwischen dem gesamten Material herzustellen, Beziehungen zwischen dem gesamten Material herzustellen, damit die Beschreibungen mit Prompts auch zu brauchbaren Ergebnissen führt. Leider wird nicht erklärt, welche Technik die Generierung verwendet.

Die Anwendungsmöglichkeiten sind vielfältig: Erzeugung von Sounds und Effekten, Isolierung von Audiospuren, Hinzufügen von Instrumenten zu einer Aufnahme, Erzeugung von Sprache mit unterschiedlichem Ausdruck. Einige der vorgestellten Ergebnisse sind vielversprechend, bei anderen ist noch „Luft nach oben“.

Die Entwicklung von Fugatto ist noch nicht abgeschlossen, es bleibt abzuwarten, was die endgültige Version zu leisten vermag. Über die Auswirkungen dieses KI-Tools, insbesondere auf die „konventionelle“ Musikproduktion, kann derzeit nur spekuliert werden. Schnell arbeitende und kurzlebige Bereiche wie Werbung, Content Creation und Promotion werden aber wahrscheinlich von Fugatto profitieren.

Unsere neuesten Beiträge

Behringer Pro-800 Sounds

Sounddesign-Tutorial für den Behringer Pro-800 Vintage Vibes mit moderner Power: So gestaltest du fette Analogsounds [...]

weiterlesen
Roland D-50 von 1987 im Review

Der Digital-Synth-Klassiker für Flächen und Fantasie Was haben der Drum’n’Bass-Pionier LTJ Bukem und die Klangzauberin [...]

weiterlesen
Top 5 Synthesizer Juni 2025 – So klingt der Juni

So klingt der Juni – Top 5 Synthesizer Juni 2025 für deinen Sommer-Flow Die Tage [...]

weiterlesen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert