Une nouvelle façon de stocker temporairement la mémoire, Gigaflow, aide à diriger le trafic intense dans les centres de données cloud causés par l'IA et les charges de travail d'apprentissage automatique, selon une étude menée par des chercheurs de l'Université du Michigan.
Les résultats ont été présentés lors de la Conférence internationale sur le support architectural pour les langages de programmation et les systèmes d'exploitation à Rotterdam, aux Pays-Bas.
Les demandes de calcul croissantes ont conduit les entreprises à compter sur le cloud computing hors site plutôt que sur leur propre infrastructure, ce qui fait que les centres de données cloud augmentent la capacité de traitement avec des densités de base plus élevées et des technologies matérielles plus rapides.
« Alors que les charges de travail changent, le cloud computing dispose également de plus de ressources disponibles pour affronter davantage de clients à la fois sur un seul serveur. Nos recherches se concentrent sur la gestion de l'augmentation du trafic de données », a déclaré Muhammad Shahbaz, professeur adjoint d'informatique et d'ingénierie à UM et auteur correspondant de l'étude.
L'architecture basée sur un serveur natif généralement utilisé pour les tâches quotidiennes comme la navigation Web, le partage de courriels ou de fichiers ne peut pas fonctionner à cette échelle car il consacre des serveurs physiques à des tâches spécifiques, laissant les ressources sous-utilisées.
Les environnements cloud exploitent à la place les machines virtuelles – Hypervisors qui déploient des programmes et des applications, en imitant un ordinateur physique. Plusieurs machines virtuelles peuvent fonctionner immédiatement sur un seul serveur pour maximiser l'efficacité.
Dans les coulisses, des logiciels appelés Virtual commutant le trafic direct, décidant de quelle machine virtuelle une tâche ira. Les commutateurs virtuels pourraient une fois s'exécuter sur un CPU avec un taux de liaison – les données de vitesse maximale peuvent être transmises, de 10 gigabits par seconde. Avec des taux de liaison maintenant de 100 à 400 gigabits par seconde et 800 gigabits par seconde à l'horizon, les processeurs ne peuvent plus gérer le trafic.
Pour évoluer à ce taux de lien, les centres de données intègrent un matériel spécialisé appelé Smartnics (cartes d'interface réseau) qui aident à accélérer les tâches réseau. Surtout, SmartNics est programmable, ce qui permet de régler des tâches spécifiques ou des besoins en réseau.
Le logiciel Gigaflow vise à améliorer les performances Smartnic en améliorant la mise en cache – un processus informatique qui stocke des copies des données dans un emplacement temporaire et facile à accès.
En règle générale, les commutateurs virtuels ne cachent que de nouveaux paquets de données, appelés flux, à leur arrivée. Connu sous le nom de localité temporelle du trafic, cette technique offre un accès répété aux mêmes données. Cependant, les charges de travail à grande échelle nécessitent plus de traitement pour la génération de cache, ralentissant le trafic.
Gigaflow cache plutôt les segments de règles partagés – le traitement des étapes multiples flux a en commun – au lieu du traitement des flux complets, que les auteurs appellent la localité consciente du pipeline. Essentiellement, le système identifie l'ordre des règles dans le pipeline, trouve les règles les plus fréquemment utilisées et rend ceux faciles à atteindre.
« Nous pensons que Gigaflow offre une nouvelle perspective sur la façon dont nous pouvons repenser la mise en cache pour capturer de nouvelles localités, ce qui n'était pas possible auparavant en raison des limites du matériel disponible », a déclaré Annus Zulfiqar, un doctorant en informatique et en génie chez UM et auteur principal de l'étude.
Le programme augmente considérablement l'efficacité du cache, offrant jusqu'à un taux de réussite de cache jusqu'à 51% plus élevé et jusqu'à 90% de ratés de cache inférieurs. Gigaflow capture également un espace de règles 450 fois plus grand, ce qui signifie un ensemble plus important de règles pour diriger le trafic, tout en utilisant 18% des entrées de cache moins par rapport aux solutions existantes.
« Beaucoup de groupes, à la fois académiques et industriels, avaient accéléré OpenFlow et Open Vwitch dans le matériel au fil des ans, j'ai donc été impressionné que Gigaflow ait obtenu un taux de cache de 51% plus élevé sans utiliser de caches plus grands. C'est un résultat que je ne m'attendais pas à participer au projet », a déclaré Ben Pfaff, ingénieur en chef et cofondateur de Feldera Inc. et l'auteur de l'étude.
L'énorme saut dans l'espace des règles a été rendu possible en tirant parti de la localité consciente du pipeline pour diviser le cache en étapes de traitement des règles plus petites, permettant des combinaisons des étapes plus petites de différentes manières.
« La plupart des gens prennent des concepts de systèmes établis, tels que la mise en cache, pour les localités acquises et temporelles ou spatiales comme leurs seules options. Pouvoir briser ces hypothèses en fonction des tendances émergentes des architectures programmables et du travail à partir d'un point de vue non traditionnel et parfois même contraire ouvre des opportunités uniques », a déclaré Shahbaz.
À l'avenir, l'équipe de recherche prévoit d'explorer de nouvelles opportunités pour capturer des localités non traditionnelles dans la mise en cache de valeur clé (KV) pour les LLM, car leur inférence est la charge de travail dominante dans les centres de données aujourd'hui.
L'Université Purdue, Feldera Inc. et Politecnico di Milano ont également contribué à cette recherche.