Runpod lance Flash pour apporter l'inférence IA aux développeurs sans surcharge d'infra

Fournisseur cloud d'intelligence artificielle centré sur les développeurs Runpod Inc. a annoncé aujourd'hui le lancement de Éclairun kit de développement logiciel et une plate-forme qui suppriment la surcharge d'infrastructure nécessaire au déploiement de l'IA.

Avec Flash, les développeurs peuvent passer directement du code Python local à l'inférence d'IA dans le cloud, sans configuration de conteneur, sans gestion d'images, sans configuration d'infrastructure – juste en roue libre et en mise à l'échelle automatique.

« Nous avons créé Flash parce que les retours étaient cohérents : le sans serveur est puissant, mais la configuration constitue un obstacle », a déclaré le fondateur et directeur général, Zhen Lu. « Docker est un excellent outil ; ce n'est tout simplement pas le travail que les développeurs sont venus faire. Flash redonne aux développeurs ce temps. »

Lu a déclaré que les développeurs n'avaient qu'à écrire Python, à choisir leurs préférences de calcul, puis à répondre aux demandes en quelques minutes seulement.

L'entreprise a choisi Python car il s'agit de l'un des langages de programmation les plus courants et les plus populaires utilisés dans le développement de l'IA. C'est la langue dominante à partir de 2025. Selon une enquête 2025 géré par le fabricant d'outils de développement logiciel JetBrains sro, plus de 57 % des personnes interrogées ont déclaré utiliser Python, et plus d'un tiers (37 %) ont déclaré qu'il s'agissait de leur langage principal. Cela dépasse JavaScript, Java et TypeScript en termes d'utilisation principale.

« Nous constatons également un changement dans la manière dont les applications d'IA sont créées », a ajouté Lu. « Les agents ne s'intègrent pas parfaitement dans un seul conteneur ou un seul point de terminaison. Ils doivent appeler différents modèles, acheminer entre différents types de calcul et évoluer à la demande. »

Apporter l'infrastructure aux développeurs

L’infrastructure de l’IA et les besoins des développeurs, en particulier les tests, le prototypage ainsi que le développement et le déploiement rapides, évoluent. La première ère de l’IA a été dominée par la formation : mettre en forme les modèles sur lesquels fonctionnent les systèmes d’IA générative. Mais nous entrons désormais dans l’ère de l’IA agentique, où l’inférence commence à prendre le devant de la scène et représente le segment des dépenses cloud en IA qui connaît la croissance la plus rapide.

L'inférence fonctionne selon un paradigme fondamentalement différent, dans lequel les charges de travail sont dynamiques, la demande est variable, le temps de réponse est important et une mise à l'échelle rapide peut faire ou défaire un projet, passant rapidement du stade du prototype à la production.

Runpod a déclaré qu'il essayait de briser le moule de formation des développeurs en balayant les problèmes d'infrastructure et en les laissant se concentrer sur ce pour quoi ils sont bons : la logique et le code des applications.

Flash permet aux développeurs de créer leurs applications comme ils le souhaitent et de les attacher à plusieurs points de terminaison cloud IA avec différentes configurations de calcul sur un seul service. Les développeurs précisent le type de calcul dont ils ont besoin, et le back-end gère l'équilibrage de la charge, les tâches lourdes et gestion du trafic.

Les points de terminaison évoluent automatiquement ; ils augmentent jusqu'à un maximum configuré lorsque la demande augmente et redescendent jusqu'à zéro lorsqu'ils sont inactifs.

Flash inclut également un plan de contrôle en ligne de commande pour les développeurs qui sont plus à l'aise avec le travail local, le développement, les tests et le déploiement. Runpod a déclaré que Flash est conçu pour fournir aux ingénieurs logiciels un ensemble complet d'outils du développement à la production, permettant l'accès à l'inférence de l'IA tout au long du cycle de vie du logiciel, de l'expérimentation à la production.