Andrej Karpathy a cofondé OpenAI et a été directeur de l'IA chez Tesla. Même s’il n’exerce aujourd’hui un rôle actif dans aucune des deux sociétés, il est une référence et surtout un passionné d’intelligence artificielle. Cela se voit dans la qualité de leurs vidéos de formation sur la branche ou dans la manière dont ils ouvrent leurs connaissances au monde avec des outils comme minGPT ou nanoGPT. De plus, grâce à son code, nous avons vu des créations aussi merveilleuses qu'un grand modèle de langage fonctionnant sous Windows 98.
Et pourtant, ce niveau d’implication dans l’industrie ne l’empêche pas d’être réaliste quant à ses attentes en matière d’intelligence artificielle et de ses ramifications. Cela a été démontré à nouveau dans le prestigieux podcast de Dwarkesh Patel, où au cours d'une conversation de près de deux heures et demie, l'expert a laissé un grand nombre de citations et d'impressions sur le secteur.
« C'est la décennie des agents. » Non seulement Karpathy croit aux agents, mais il a également inventé le terme « codage vibratoire » pour désigner la programmation de l'IA. En ce sens, il affirme utiliser beaucoup Claude et le Codex au quotidien. Il dit que ces premiers agents « sont impressionnants », mais il y a encore « beaucoup de travail à faire » et il estime que c'est la décennie des agents, mais pas l'année des agents, comme on disait que 2025 allait être.
En ce sens, et il le commente à plusieurs reprises tout au long de l’interview, il y a une surprédiction dans l’industrie, dans le sens où on prédit beaucoup de choses sur la rapidité avec laquelle les choses vont se produire (comme, par exemple, l’intelligence artificielle générale ou AGI qui approche à grands pas).
« Les modèles ne sont pas encore là. Je pense que l'industrie fait un pas trop grand et essaie de prétendre que c'est incroyable, alors que ce n'est pas le cas. C'est de la bêtise. Ils n'assument pas la réalité, et peut-être qu'ils le font pour attirer des investissements ou quelque chose comme ça, je ne sais pas. Mais nous sommes dans une phase intermédiaire.
L'origine de tant d'exagérations et battage. Dans un passage, Karphaty précise qu’il n’est pas pessimiste, même s’il en a l’air. « En fait, je suis optimiste. J'ai seulement l'air pessimiste parce que quand je regarde mon fil Twitter, je vois toutes ces choses qui n'ont pas de sens pour moi. » Et cela donne la clé de ce qui explique tant de réactions excessives envers Twitter, l’argent. « Honnêtement, une grande partie de cela n'est que de la collecte de fonds. Ce ne sont que des structures d'incitation. Une grande partie de cela n'est que de l'attention, transformer l'attention en argent sur Internet. »
« L'apprentissage par renforcement est terrible. » L'apprentissage par renforcement est une technique dans laquelle une IA apprend par essais et erreurs : elle exécute des actions, reçoit des récompenses ou des punitions et ajuste son comportement pour maximiser les récompenses futures. Cela a été essentiel dans des avancées comme AlphaGo ou dans l’optimisation de grands modèles comme Deepseek, mais Karpathy pense que sa façon de « récompenser à la fin » est très éloignée de la façon dont les gens raisonnent.
Pour Karpathy c'est « terrible », et il compare même cela à « sucer la supervision avec une paille » : tous les efforts du modèle sont résumés dans un seul chiffre final (qu'il soit juste ou non), ce qui génère beaucoup de bruit. Selon lui, les humains n'apprennent pas comme ça : on ne fait pas cent tentatives aveugles et on n'accorde pas une valeur égale à chaque étape intermédiaire. Il estime que l'avenir réside dans la « supervision des processus », où le modèle reçoit un feedback continu. Bien sûr, il admet qu'on ne sait toujours pas comment l'automatiser sans que les systèmes trouvent des pièges (exemples contradictoires) pour tromper.