Loubna Azghoud prend la tête du groupe MR

La désignation de Loubna Azghoud comme cheffe...

Israël prêt à agir seul contre l’Iran: Un avertissement explicite adressé aux États Unis

Des responsables sécuritaires israéliens ont récemment averti...
Annonce publicitairespot_imgspot_img

Comment Cisco transforme les centres de données IA

.NETWORKopinionmondiale-societeComment Cisco transforme les centres de données IA

Cisco a réalisé un travail important au cours de l’année écoulée pour mettre à niveau son portefeuille de commutateurs de centres de données Nexus pour l’ère de l’IA. Les commutateurs de la gamme Cisco N9000 ont adopté les avantages d’inclure les fonctionnalités de résilience opérationnelle, de sécurité et de gestion nécessaires pour répondre aux exigences élevées des réseaux actuels en matière d’IA.

J’ai récemment parlé avec l’équipe Cisco pour en savoir plus sur le travail de l’entreprise avec des clients dans de nombreux segments de marché différents, notamment les marchés des entreprises, des télécommunications, du néocloud et du cloud souverain.

Il est clair que Cisco a mis le pied sur l’accélérateur pour répondre aux besoins émergents en matière de réseaux d’IA, de la formation aux réseaux back-end à l’inférence frontale. L’IA modifie des architectures de réseau entières. Les clients réfléchissent aux réseaux nécessaires pour prendre en charge l’IA, que ce soit au cœur, à la périphérie ou entre les deux. Ils doivent également réfléchir à l’impact qu’auront les applications d’IA sur les réseaux d’entreprise, les centres de données, les opérations et les stratégies de gouvernance.

Une conversation changeante

Vous pourriez vous demander : qu’est-ce qui se passe pour exiger cette évolution ? Tout simplement, le marché des infrastructures d’IA évolue, à mesure que les entreprises se rendent compte que les données et les applications sont assez complexes et largement distribuées, ce qui met l’accent sur le rôle de l’inférence pour l’IA et sur la nécessité d’une connectivité et d’une observabilité réseau de bout en bout.

Surbhi Paul, directeur des réseaux de centres de données chez Cisco, m’a dit que Cisco avait rapidement réagi aux changements du marché au cours de l’année écoulée.

« La conversation a vraiment changé », a déclaré Surbhi dans une interview. « Il y a six mois, les gens réclamaient plus de bande passante. Aujourd’hui, ce n’est pas seulement une question de vitesse, mais aussi de déterminisme. Le réseau fait partie de l’ordinateur. Les GPU peuvent caler en raison de la gigue. Vous pouvez dépenser des millions de dollars en dépenses d’investissement si les GPU restent inactifs pendant quelques millisecondes. »

Un portefeuille diversifié de la série N9000

Voyons plus en détails.

La série N9000, qui fait partie de la solution Cisco AI Networking, comprend une architecture flexible pour adopter de nombreuses formes différentes de silicium et de systèmes d’exploitation, y compris le Silicon One de Cisco ainsi que les technologies NVIDIA Spectrum-X. Les systèmes d’exploitation sont également flexibles et peuvent inclure Cisco ACI, NX-OS ou SONiC. La marque de fabrique de la série N9000 est la flexibilité et les performances.

Cisco a également pris des engagements importants en faveur d’une mise en réseau optimisée par l’IA avec des principes guidés pour adopter des normes ouvertes, des opérations simplifiées et une sécurité intégrée.

L’accent est avant tout mis sur la résilience opérationnelle. Les centres de données et clusters d’IA massifs imposent des exigences sans précédent au réseau, à la fois sur le back-end, où les clusters traitent la formation, ainsi que sur les réseaux front-end et de stockage, où les applications d’IA sont accessibles et traitées. Ces nouvelles exigences signifient que les centres de données IA nécessitent une latence ultra faible, une optimisation de la bande passante et une résilience opérationnelle.

Dans un déploiement idéal, tout doit être connecté sur n’importe quel réseau, qu’il s’agisse du front-end, du back-end ou du stockage. Il est essentiel de disposer d’une plateforme de gestion centralisée. Cisco estime que l’intégration de fonctionnalités d’observabilité, d’applications en temps réel et de surveillance des tâches dans le cadre de son plan de gestion Nexus Dashboard fait partie du processus visant à garantir la résilience opérationnelle, que ce soit pour les réseaux front-end ou back-end.

« Pour maximiser ce retour sur investissement, vous ne traitez pas les réseaux front-end et back-end comme des îles », a déclaré Surbhi. « Vous avez besoin de stabilité. Vous ne pouvez pas voir votre plan de gestion s’effondrer. La sauce secrète du retour sur investissement réside dans une plate-forme de gestion unifiée. Vous devez extraire toutes les performances du GPU. Le modèle opérationnel unifié vous permet de maintenir le temps d’inactivité du GPU à zéro. « 

La série N9000 comprend des fonctionnalités de résilience cruciales, notamment le contrôle de flux basé sur la priorité (PFC) et la notification explicite de congestion (ECN), qui garantissent que la formation et les opérations d’inférence de l’IA peuvent se terminer sans abandonner les tâches avant la fin. Mais attendez, il y a plus : Cisco Intelligent Packet Flow inclut les fonctionnalités PFC et ECN.

Cisco Intelligent Packet Flow est une solution conçue pour optimiser la gestion du trafic dans les environnements d’IA et de calcul hautes performances à grande échelle. Il relève les défis des charges de travail d’IA en fournissant des fonctionnalités avancées d’équilibrage de charge, de sensibilisation à la congestion et de récupération des pannes. Les fonctionnalités clés incluent l’équilibrage de charge dynamique (DLB), le coût multi-chemin pondéré (WCMP), l’équilibrage de charge par paquet, l’équilibrage de charge basé sur des règles, la télémétrie accélérée par le matériel et la récupération sensible aux pannes.

Surbhi souligne qu’avec Cisco NX-OS, la série N9000 peut utiliser la télémétrie en temps réel de l’ASIC pour effectuer une surveillance à l’échelle de la nanoseconde. Cela garantit que l’ECN signale avant que les tampons ne se remplissent.

Outre la résilience opérationnelle, il existe également des besoins en matière de sécurité. Vous avez besoin d’une sécurité intégrée dans la structure distribuée. Nexus inclut une sécurité avancée telle que eBPF et Hypershield, ce qui signifie que la structure réseau peut être sécurisée avec une sécurité distribuée jusqu’au niveau du noyau Linux. L’observabilité intégrée peut surveiller les applications, l’infrastructure et les journaux en temps réel.

Normes ouvertes et flexibilité

Un autre élément clé de la série N9000 est la flexibilité. Ces commutateurs sont basés sur la technologie Ethernet standard largement adoptée pour les cas d’utilisation front-end et back-end. Il est intégré à la fois à l’architecture de référence Cloud de Cisco (CRA) ainsi qu’aux produits à venir basés sur l’architecture de référence Cloud Partner (NCP) de NVIDIA, ce qui signifie que les clients peuvent sélectionner l’une ou l’autre plate-forme en fonction de l’application et des besoins appropriés. Le nouveau partenariat de Cisco avec NVIDIA peut fournir le Cisco N9300 avec les cartes réseau NVIDIA BlueField et Cisco Silicon One, ou ils peuvent sélectionner le dernier Cisco N9100 avec NVIDIA BlueField et le silicium de commutation Ethernet Spectrum-X de NVIDIA.

Cisco a également été à l’avant-garde de l’élaboration de nouvelles fonctionnalités standardisées, notamment en coopérant avec des organismes de normalisation tels que l’IETF et l’UEC pour ajouter de nouvelles fonctionnalités et normes. Et il a mis à jour le contrôle basé sur l’API pour le N9000, garantissant qu’il peut être géré à l’aide de Nexus Fabric via un service géré dans le cloud, ainsi que dans l’infrastructure en tant que modèles de code en interagissant avec des API ouvertes.

Cas d’utilisation de référence clés

Cisco a soutenu ses produits avec de gros gains de clients. Il dispose d’une liste complète de clients utilisant le portefeuille de centres de données pour les applications frontales, back-end et de stockage.

Par exemple, une entreprise de vente au détail Fortune 500 comptant 1 700 sites devait exécuter un modèle d’IA hybride. Il y avait une lourde charge de formation centralisée avec des inférences délivrées en périphérie dans des milliers de magasins. La société a adopté l’architecture N9000 et utilise le tableau de bord Nexus pour gérer toutes les fonctions de mise en réseau de l’IA, depuis l’usine centrale d’IA jusqu’à la source périphérique.

Surbhi souligne qu’il s’agit d’un bon exemple de réseaux de formation et de périphérie fonctionnant en synchronisation pour offrir les meilleures performances, comme ils l’ont fait dans cet exemple. Dans cet exemple, la série N9000 utilise la télémétrie en temps réel de l’ASIC pour effectuer une surveillance à l’échelle de la nanoseconde. La signalisation ECN garantit que les tampons de paquets ne se remplissent jamais.

« Nous voyons des clients créer des clusters d’inférence en quelques jours », a déclaré Surbhi. « Ils ont besoin de quelque chose qui s’allume immédiatement et offre une faible latence. »

Mot de clôture

Grâce à des investissements substantiels au cours de l’année écoulée, Cisco a prouvé que la série N9000 constitue une réponse flexible et opérationnellement sophistiquée pour les applications de réseau de centres de données et de clusters d’IA. Avec la puissance de 800G et un plan clair pour 1,6T, ainsi que le nouveau tableau de bord Nexus intégré et unifié de Cisco, la série N9000 peut prendre en charge de vastes opérations d’IA ou de centre de données cloud, y compris les réseaux back-end, front-end et de stockage pour l’IA.


Source:

blogs.cisco.com

Découvrez nos autres contenus

Articles les plus populaires