Microsoft a annoncé début novembre 2025 qu'une configuration rack Azure ND GB300 v6 a atteint un débit d'inférence de 1,1 million de tokens par seconde sur le modèle Llama2 70B. Le fournisseur présente ce résultat comme un nouveau record industriel, obtenu en collaboration avec NVIDIA et validé par l'entreprise indépendante Signal65.
Le record en chiffres
Selon Microsoft, la démonstration a été réalisée sur une seule rame NVIDIA GB300 NVL72, une configuration rack comportant 72 GPU Blackwell Ultra et 36 CPU NVIDIA Grace. La mesure agrégée est de 1 100 000 tokens/s, ce qui correspond à environ 15 200 tokens/s par GPU. Le précédent record annoncé par Microsoft s'élevait à 865 000 tokens/s sur la génération GB200.
Points clés :
- Modèle testé : Llama2 70B (précision FP4).
- Benchmark : MLPerf Inference v5.1.
- Topologie utilisée : 18 instances ND GB300 v6 réparties au sein du domaine NVL72 du rack.
- Moteur d'inférence : NVIDIA TensorRT-LLM.
- Validation : logs et résultats publiés par Microsoft, vérification effectuée par Signal65.
Architecture et méthodologie
La ND GB300 v6 est optimisée pour l'inférence : Microsoft indique qu'elle bénéficie de 50 % de mémoire GPU supplémentaire et d'un TDP (puissance thermique) supérieur de 16 % par rapport à la génération précédente. La simulation a réparti l'exécution de Llama2 70B en FP4 sur 18 machines virtuelles ND GB300 v6 d'un même domaine NVL72, en utilisant TensorRT-LLM comme moteur d'inférence pour tirer parti des optimisations logicielles de NVIDIA.
Microsoft a rendu publics les journaux de test et le détail des essais, ce qui permet à des tiers d'examiner les conditions expérimentales. Signal65, qui a contrôlé les résultats, souligne un gain d'inférence de 27 % pour une hausse de consommation de seulement 17 % par rapport à la génération GB200.
Impact pour le marché et la production d'IA
Atteindre plus d'un million de tokens par seconde sur un seul rack a plusieurs répercussions concrètes pour les acteurs du cloud et les entreprises :
- Débit et latence : les fournisseurs d'applications hautement parallélisées (chatbots, assistants conversationnels, génération de contenu à grande échelle) peuvent réduire les goulots d'étranglement et servir davantage de requêtes simultanées.
- Coûts opérationnels : une inférence plus rapide par rack peut abaisser le coût par token servi, mais cela dépendra du prix des instances et de l'efficience énergétique effective en production.
- Compétitivité des clouds : Microsoft affiche un avantage technique dans les offres destinées à l'inférence à grande échelle, notamment pour les entreprises exigeant des garanties de gouvernance et d'isolation des données.
Limites et angles d'analyse
Plusieurs précautions sont nécessaires pour interpréter ce type d'annonce :
- Métrique benchmarkée : les performances ont été obtenues en FP4 sur une charge MLPerf Inference simulée. Les débits réels peuvent varier selon la précision utilisée, la latence réseau et la nature des requêtes clients.
- Efficacité énergétique relatée : Signal65 mentionne un gain d'un facteur ~10 versus la génération H100 au niveau rack et une efficience énergétique multipliée par ~2,5, mais ces chiffres proviennent d'analyses spécifiques et doivent être replacés dans le contexte des configurations et profils de charge.
- Dépendance technologique : la démonstration illustre la forte complémentarité entre l'infrastructure Microsoft et les innovations matérielles et logicielles de NVIDIA (Blackwell, Grace, TensorRT-LLM).
Enjeux éthiques et réglementaires
Des capacités d'inférence accrues posent des questions au-delà des performances brutes :
- Consommation et empreinte carbone : même si l'efficience s'améliore, l'augmentation du volume total d'opérations peut accroître la consommation énergétique globale si l'utilisation augmente massivement.
- Sécurité et gouvernance des données : des solutions capables de traiter des volumes très élevés doivent intégrer des contrôles stricts pour éviter les fuites de données et respecter les exigences sectorielles et locales en matière de confidentialité.
- Usage responsable : accroître la vitesse d'accès à des modèles génératifs peut exacerber la diffusion de contenus erronés ou malveillants si les garde‑fous (filtrage, modération, audit) ne suivent pas.
À retenir
- 1,1 million de tokens/s atteint par une rame NVL72 Azure ND GB300 v6 sur Llama2 70B (MLPerf v5.1, FP4).
- 72 GPU Blackwell Ultra et 36 CPU Grace par rack, environ 15 200 tokens/s par GPU.
- Amélioration annoncée : +27 % de performance pour +17 % de consommation vs GB200; vérification par Signal65.
- Résultats publics : Microsoft a publié les logs et les détails de tests pour examen.
- Rappel : performances de benchmark ≠ performances réelles; enjeux énergétiques et de gouvernance à prendre en compte.