AI Subscription vs H100 — Veille IA

En une phrase

Malgré la baisse continue des coûts de l'IA et l'amélioration de l'efficacité du matériel, l'exécution de modèles de langage de pointe en local reste financièrement et techniquement complexe pour les individus ou petits groupes, rendant les services des fournisseurs d'inférence basés sur le cloud plus viables grâce à leurs infrastructures massives et optimisées.

Points clés

Analyse des coûts d'exécution de modèles IA : La vidéo compare les coûts d'abonnement aux services d'IA, la location de GPU cloud (ex : Nvidia H100 sur Neoclouds), et l'achat de matériel dédié pour exécuter des modèles IA. Un abonnement mensuel de 200 $ sur 6 ans (14 400 $) est plus économique qu'une seule carte H100 (30 000 $).
Viabilité du partage de matériel : L'achat d'une carte Nvidia H100 (coût total d'environ 37 400 $ avec électricité et refroidissement sur 6 ans) devient plus avantageux si elle est partagée par 4 personnes, comparé à 4 abonnements individuels totalisant 57 600 $.
Limites techniques des grands modèles : Les modèles d'IA de pointe comme le "Kim K2 thinking model" (1 trillion de paramètres) sont trop volumineux : même quantifiés, ils nécessitent de 3 à 8 H100 pour fonctionner, rendant une seule carte H100 inadéquate.
Coût et limites du DGX H100 : Un système DGX H100 d'Nvidia (8 cartes H100) coûte entre 285 000 $ et 300 000 $, avec un coût total de possession d'environ 400 000 $. Pour être rentable, il faudrait le partager avec 28 personnes, mais la mémoire VRAM partagée limiterait drastiquement l'expérience utilisateur (environ 2 850 tokens par personne).
Avantage compétitif des fournisseurs d'inférence : La complexité et les coûts massifs de l'infrastructure (énergie, refroidissement, parallélisme) nécessaires pour exécuter des LLM de pointe à grande échelle expliquent pourquoi des entreprises comme OpenAI ou Anthropic peuvent offrir des services performants à prix réduits, grâce à leurs économies d'échelle et leurs centres de données spécialisés.

Ressources

Nvidia — concepteur de GPU (H100, Vera Rubin, DGX H100)
Neoclouds — terme générique pour les fournisseurs de calcul cloud
OpenAI — laboratoire de recherche en IA, fournisseur de modèles comme ChatGPT
Anthropic — entreprise de recherche et de sécurité en IA, développe des modèles comme Claude
Google — entreprise technologique majeure, développe des modèles IA
Kim K2 thinking model — exemple de modèle d'IA de pointe (Mixture of Experts)
Zo Computer — ordinateur cloud privé permettant de stocker des données, gérer des fichiers avec l'IA et développer des applications
Hugging Face — plateforme de modèles, jeux de données et applications d'apprentissage automatique