Après avoir révolutionné la génération vidéo avec Sora, OpenAI prépare son prochain grand pas : la création d'une IA capable de générer de la musique. Comme l'ont révélé aujourd'hui plusieurs médias américains, la société de Sam Altman développe un modèle d'IA capable de produire des compositions musicales à partir de textes ou d'autres invites audio, ce qui la placerait en concurrence directe avec des startups spécialisées comme Suno ou Udio.
Du texte au son : la nouvelle frontière créative d'OpenAI
Le projet, encore en phase expérimentale, vise un objectif clair : permettre à tout utilisateur de décrire avec des mots une idée musicale et d'obtenir une bande sonore complète. Selon ce qui a été publié, OpenAI collabore avec des étudiants du prestigieux conservatoire Juilliard, qui aident à annoter les partitions et à préparer le matériel qui sert de base de formation au modèle.
Le système pourrait, par exemple, générer un accompagnement de guitare pour une voix humaine, ou encore créer automatiquement des bandes sonores pour des vidéos et des publicités. Il ne s’agit pas seulement de produire des mélodies aléatoires, mais aussi d’atteindre une cohérence musicale, une instrumentation réaliste et des styles reconnaissables.
Un retour à ses racines musicales
Bien que cette nouvelle approche puisse sembler sans précédent, OpenAI a déjà une histoire dans la génération musicale. En 2020, il a présenté Juke-boxun modèle capable de créer des chansons avec des voix synthétiques dans le style de vrais artistes.
Cependant, cette technologie restait du domaine purement expérimental : complexe, coûteuse et sans application commerciale immédiate. Maintenant, avec l'impulsion de sora et les progrès des modèles multimodaux, l'entreprise semble prête à revenir vers cet objectif.
Maintenant, ce qui a commencé comme une expérience avec Juke-boxvise à devenir un produit au potentiel commercial énorme. Si l’on en croit l’histoire récente, le modèle devrait voir le jour en 2026, intégré au sein de l’écosystème ChatGPT ou sous une nouvelle marque musicale.
Cet intérêt n’est pas accidentel. La musique, comme la vidéo ou les images, représente une dimension cruciale pour l’intelligence artificielle créative. Contrôler la génération sonore permettrait à OpenAI de boucler le cercle de la création audiovisuelle automatisée.
Concurrence féroce et doutes juridiques
Ce nouveau projet place OpenAI devant des startups émergentes comme Suno et Udio, qui captent depuis 2024 l'attention du public avec leurs IA capables de produire des chansons complètes à partir de messages texte. Mais contrairement à ses concurrents, OpenAI possède un avantage stratégique : son écosystème intégré.
Une IA musicale pourrait se connecter à ChatGPT pour écrire des paroles, à Sora pour générer des clips vidéo et à DALL·E pour concevoir des couvertures ou des campagnes. Cet environnement créatif unifié pourrait redéfinir la manière dont le contenu musical et audiovisuel est conçu et produit.
Suno, en particulier, est actuellement la référence dans le domaine de l'IA musicale, mais aussi au centre de controverses juridiques : plusieurs maisons de disques l'ont poursuivi en justice pour violation présumée du droit d'auteur, soupçonnant que son modèle avait été entraîné avec des œuvres protégées.
Ce différend pourrait préfigurer les dilemmes auxquels OpenAI sera confronté. Même si Sam Altman a publiquement reconnu que les créateurs devraient partager les bénéfices générés par l’IA, il n’existe toujours pas de mécanisme clair pour garantir cela.
Les questions sur l'origine des données de formation et la manière dont les artistes seront rémunérés restent ouvertes, et le précédent de sora —déjà accusé d'utiliser du matériel audiovisuel sans consentement—ajoute une pression éthique et juridique supplémentaire sur l'entreprise.
La musique générative, une menace ?
Les progrès de l’IA dans la musique génèrent à parts égales de l’enthousiasme et de la peur. D’une part, il promet de démocratiser la production sonore, en permettant à chacun de créer de la musique sans connaissances techniques ni équipement coûteux.
D’un autre côté, le risque de saturer les plateformes de contenus générés automatiquement se fait déjà sentir : Spotify et Deezer ont prévenu qu’une part croissante des chansons mises en ligne quotidiennement proviennent de l’IA, obligeant les plateformes à développer des filtres et des politiques pour maintenir la qualité et l’authenticité.
Des cas comme celui de Le coucher de soleil de veloursun faux « groupe » créé par l'IA qui s'est infiltré dans les playlists officielles avant d'être démasqué, montrent que la frontière entre l'humain et le synthétique devient de plus en plus floue.