Un goulot d'étranglement technologique ballasche le développement de l'IA. La culpabilité est le père de l'informatique moderne

L'intelligence artificielle progresse à pas de géant depuis plusieurs années, mais nous avons atteint un point où ses progrès sont confrontés à un problème technique de fond qui, bien qu'invisible pour la plupart des utilisateurs, limite leur efficacité et leur durabilité: le « goulot d'étranglement de von Neumann ''.

Et comprendre ce que cela signifie, pourquoi cela affecte particulièrement l'IA et quelles solutions sont explorées, il est essentiel pour comprendre l'avenir de l'informatique.

Un problème d'énergie et de données

La formation des modèles d'IA nécessite non seulement des quantités colossales de données, mais aussi une quantité comparable d'énergie. Les modèles avec des milliards de paramètres doivent traiter des milliards de fragments d'information … mais la plupart de la consommation n'est pas due au calcul mathématique lui-même, mais quelque chose de plus banal: le transfert de données entre la mémoire et le processeur.

Dans les architectures informatiques actuelles, basées sur la conception proposée par John von Neumann en 1945, l'unité de traitement et la mémoire sont séparés et communiquent via un canal ou un «bus».

Cette séparation donne de la flexibilité et de l'évolutivité – et c'est l'une des raisons pour lesquelles cette conception a dominé pendant plus de six décennies – mais implique également un frein: la vitesse de transfert de données n'a pas augmenté au même rythme que la capacité informatique.

Pourquoi parlons-nous de «goulot d'étranglement»?

La séparation entre la mémoire et le traitement implique que chaque opération nécessite une collecte constante des données: les télécharger de la mémoire au processeur pour calculer et renvoyer les résultats à nouveau à la mémoire. Dans les modèles d'apprentissage en profondeur, avec des milliards de « pesos » à s'adapter, ce processus est répété encore et encore, avec un coût énorme en temps et en énergie.

Le problème a été aggravé au cours de la dernière décennie. Bien que la puissance des processeurs et la densité de la mémoire se soient améliorées de façon exponentielle, l'efficacité du transfert des données a à peine progressé. En conséquence, les puces actuelles peuvent effectuer leurs calculs à grande vitesse, mais ils sont obligés d'attendre passivement des informations pour atteindre des canaux de plus en plus congestionnés.

Dans le cas de l'IA, où presque toutes les opérations sont interconnectées et dépendent de données partagées, ce retard se traduit par des processeurs qui restent inactifs une bonne partie du temps, en attendant que les données arrivent pour se poursuivre.

Physique derrière les dépenses énergétiques

Les données de déplacement ne sont pas libres: chaque fois qu'un peu se déplace via un câble en cuivre – le chargement pour représenter un « 1 » ou le téléchargement pour représenter une « 0 » – l'énergie est consommée. Et plus l'itinéraire entre le processeur et la mémoire est long, plus le coût est élevé.

Bien que chaque transfert individuel dépense peu, l'impact est multiplié lorsque de grands modèles de langage sont formés, où chaque étape peut impliquer la charge de milliards de paramètres à partir de plusieurs souvenirs graphiques.

Il n'est pas surprenant que la formation d'un seul modèle à grande échelle consomme autant d'électricité que celle dépensée par une maison moyenne des États-Unis pendant des mois.

Stratégies pour surmonter le goulot d'étranglement

L'industrie technologique travaille intensément pour atténuer cette limitation. Parmi les solutions les plus prometteuses figurent:

Optique intégrée: IBM a présenté des modules de guide d'ondes polymères qui incorporent la vitesse de fibre optique directement dans les puces, réduisant le temps et l'énergie nécessaires pour transférer des données.
Computing de mémoire: au lieu de déplacer les données vers le processeur, les opérations sont effectuées directement dans la mémoire. Des technologies telles que la «mémoire de changement de phase» (PCM) permettent de stocker les poids des modèles dans la résistivité des matériaux spéciaux, réduisant considérablement le trafic de données.
Composez près de la mémoire: des puces telles que IBM AIU Northpole distribuent de petites souvenirs locaux ainsi que plusieurs cœurs de traitement. Dans les tests, cette conception a réussi à être jusqu'à 73 fois plus efficace en énergie que les GPU conventionnels dans les tâches d'inférence.

Alors, l'architecture de Von Neumann disparaîtra-t-elle?

Non. Malgré ses limites, le paradigme de von Neumann ne disparaîtra pas: sa polyvalence en fait l'option idéale pour les tâches générales, telles que l'informatique graphique ou les calculs de haute précision au point flottant, où les architectures alternatives ne sont pas encore à la hauteur.

Très probablement, l'avenir combine le meilleur des deux mondes: les systèmes hybrides où l'informatique classique est responsable des tâches polyvalentes et de précision, tandis que les architectures No-von Neumann Mentés ci-dessus, ils se spécialisent dans l'accélération et la renforcement de la formation et de l'inférence des modèles d'IA plus durables.

Via | Ibm