Google Gemma 4 Explained in 5 Minutes — Veille IA

En une phrase

Google a libéré Gemma 2, un LLM sous licence Apache 2.0 offrant une liberté totale d'utilisation, avec des performances comparables à des modèles plus grands mais hautement optimisé pour une exécution locale efficace sur du matériel grand public grâce à des innovations comme les "per-layer embeddings" et "Turboquant".

Points clés

Licence Apache 2.0 véritablement ouverte : Gemma 2 se distingue par sa licence Apache 2.0, offrant une liberté totale d'utilisation commerciale, de recherche, de modification et de redistribution sans aucune restriction, seuil de revenus ou clause cachée, contrairement à des modèles comme Llama.
Performances élevées et exigences matérielles réduites : La version de 27 milliards de paramètres de Gemma 2 atteint des performances similaires à celles de modèles beaucoup plus volumineux, mais ne nécessite que 20 Go de téléchargement et peut fonctionner localement sur une seule NVIDIA RTX 4090, voire sur un smartphone ou un Raspberry Pi.
"Per-layer embeddings" pour une architecture compacte : La principale innovation de Gemma 2 réside dans cette décision architecturale. Au lieu d'un seul embedding universel par token, chaque couche reçoit sa propre version plus petite et personnalisée, réduisant le transfert de données redondantes et la taille effective du modèle sans compromettre les capacités de raisonnement.
Compression "Turboquant" innovante : Google a introduit Turboquant pour compresser davantage les poids du modèle. Cette technique convertit les données en coordonnées polaires et applique une transformation de Johnson-Lindenstrauss pour projeter des données de haute dimension dans un espace de dimension inférieure, permettant une compression extrême avec une perte d'information minimale.
Changement de paradigme pour les modèles ouverts : Gemma 2 représente une avancée significative en matière de construction et de distribution de modèles ouverts, rendant l'intelligence de niveau datacenter accessible sur du matériel grand public à faible coût, sous une licence totalement libre.

Ressources

Gemma 2 — le modèle de langage de Google
Apache 2.0 License — licence open source de Gemma 2
OpenAI GPT-OSS — modèle d'OpenAI mentionné avec la même licence mais moins performant
Qwen — modèle chinois mentionné
DeepSeek — modèle chinois mentionné
Llama — modèle de Meta, "open-weight" avec licence restrictive
Kimiko 2.5 — modèle mentionné pour comparaison
NVIDIA RTX 4090 — GPU capable d'exécuter Gemma 2 localement
NVIDIA H100 — GPU plus puissant et coûteux
Raspberry Pi — ordinateur monocarte capable d'exécuter Gemma 2