Il y a quelques jours, Meta présentait son IA Make-A-Video, capable de générer de courts clips vidéos à partir d’invites textuelles. De la même façon, l’IA AudioGen est un modèle génératif autorégressif qui génère des échantillons audio conditionnés par des entrées textuelles.
Elle utilise un modèle de langage qui lui permet de comprendre la chaîne de texte qui lui est proposée en entrée, puis isole les mots pertinents, à partir desquels elle va générer des sons.
Par exemple, de la phrase « un chien qui aboie dans un parc », AudioGen ne retient que les mots « chien », « aboie » et « parc », afin de recréer l’ambiance sonore associée.
Pour parvenir à ce résultat, AudioGen a subi un long apprentissage, reposant sur environ 4000 heures de données d’entraînement, issues d’une dizaine d’ensembles de données différents.
Selon Félix Kreuk, ingénieur de recherche chez Meta AI research, AudioGen peut produire une très grande variété de sons et même les associer dans un même fichier audio. Il peut également générer tout un morceau de musique à partir d’un court extrait musical.
Source : https://trustmyscience.com/ia-meta-cree-sons-commu...