Meta a publié Llama 4 le 5 avril 2025, ainsi que Llama 4 Scout et Llama 4 Maverick, disponibles sur Llama.com et Hugging Face. Après plusieurs semaines de tests pratiques, je voulais vérifier si le modèle tient réellement la promesse de Meta d’un modèle multimodal de nouvelle génération.
Pour cette revue de Llama 4, j’ai consulté des benchmarks vérifiés, des classements indépendants et les retours de la communauté pour comprendre les performances réelles. Les données montrent une forte capacité multimodale et une fenêtre de contexte de 10 millions de tokens, mais aussi des problèmes de précision avec des images inconnues et des prompts plus complexes.
Décortiquons ce que Llama 4 offre réellement, comment il se comporte en dehors des benchmarks contrôlés, et où ses limites apparaissent. Vous découvrirez son architecture, ses points forts et comment il se compare à GPT-4o, Gemini et DeepSeek avant de décider s’il correspond à votre cas d’usage.
💡 TL;DR : Ce que ce guide apporte (Revue Llama 4 [année])
- Aperçu du modèle : Trois modèles : 109B, 400B, 2T.
- Points forts : Contexte de 10M tokens, 2 à 5 fois moins cher.
- Limites principales : ~62% en codage, baisse de 34% en vision.
- Conclusion : Idéal à grande échelle, solution de secours recommandée.
💡 ChatGPT |💡 Perplexity |💡 Claude |💡 Google AI |💡 Grok
Qu’est-ce que Llama 4 ? Analyse technique
Llama 4 est la dernière famille de modèles IA multimodaux ouverts de Meta, lancée en avril 2025. Il apporte des améliorations architecturales majeures et d’excellents scores de benchmark, bien que ses performances en conditions réelles fassent débat par rapport aux tests contrôlés.
Cette génération introduit une architecture mixture-of-experts (MoE), qui fonctionne comme une équipe de spécialistes. Le modèle n’active que les « experts » nécessaires pour chaque tâche. Il est également multimodal natif, capable de gérer texte et images dès le premier jour.
Modèles et fonctionnalités clés :
La famille Llama 4 comprend principalement les modèles suivants :

Crédits image : Meta
Llama 4 Scout
Llama 4 Maverick
Llama 4 Behemoth (encore en formation)
Selon Zapier, Scout et Maverick ont été distillés à partir de Behemoth, ce qui leur permet de conserver la même intelligence dans un format beaucoup plus petit. Contrairement à Llama 3, ils gèrent texte et images nativement dès le premier jour, sans configuration supplémentaire.
Comment Llama 4 se Compare-t-il aux Anciennes Versions de Llama ?
Les versions précédentes de Llama ont fait sensation dans la communauté IA. Llama 2 et Llama 3 ont été des événements majeurs lors de leurs années de sortie, établissant des attentes élevées.
Llama 4, malgré ses innovations, ne possède pas la même cohérence narrative. Des cycles de développement plus longs ont relevé la barre, rendant difficile l’impression de la communauté. Un bref historique des principaux modèles open source de Meta :
| Modèle / Fonctionnalité | Date de Sortie | Paramètres | Architecture | Paramètres Actifs | Multimodal | Fenêtre de Contexte | Score MMLU Pro | Vitesse d’Inférence | Matériel (Int4) | Remarques |
| OPT | 3 mai 2022 | 125M à 175B | Dense | — | ❌ Non | — | — | Référence | — | Modèle open source fondamental |
| LLaMA | 24 février 2023 | 7B à 65B | Dense | — | ❌ Non | — | — | Référence | — | Alimentait les premiers modèles de chat open source |
| Llama 2 | 18 juillet 2023 | 7B, 13B, 70B | Dense | — | ❌ Non | — | — | Référence | — | Standard académique |
| Llama 3 | 18 avril 2024 | 8B, 70B | Dense | — | ❌ Non | — | — | Référence | — | Modèles de base solides |
| Llama 3.1 | 23 juillet 2024 | 8B, 70B, 405B | Dense | — | ❌ Non | — | — | Référence | — | Premier modèle open-weight compétitif avec GPT-4 |
| Llama 3.2 | 25 septembre 2024 | 1B, 3B, 11B, 90B | Dense | — | ❌ Non | — | — | Performance insuffisante | — | Performance insuffisante pour les tâches de vision |
| Llama 3.3 70B | 6 décembre 2024 | 70B | Dense | 70B | ❌ Non | 128K tokens | ~75 | Référence | 2× A100s | Mise à jour mineure |
| Llama 4 Scout | 5 avril 2025 | 109B | MoE (16 experts) | 17B | ✅ Natif (texte+images) | 10M tokens | ~78 | 2–3× plus rapide | 1× H100 | Version actuelle |
| Llama 4 Maverick | 5 avril 2025 | 400B | MoE (128 experts) | 17B | ✅ Natif (texte+images+vidéos) | 1M tokens | 80.5 | 2–3× plus rapide | 8× H100 DGX host | Version actuelle |
Comment Déployer Llama 4 : Guide Étape par Étape
Il existe trois manières principales d’exécuter Llama 4 selon votre configuration. Choisissez l’option qui correspond à vos compétences et à votre matériel. Les étapes ci-dessous restent simples et faciles à suivre.
Option 1 : Déploiement via API Cloud (le plus simple)
C’est le moyen le plus rapide de commencer à utiliser Llama 4. Vous n’avez pas besoin de GPU ou de serveurs, juste d’une clé API.
ce-line= »534-534″>1. Choisir un Fournisseur
Recommandé pour les débutants :
- OpenRouter : Accès multi-modèles, paiement à l’usage
- AWS Bedrock : Fonctionnalités entreprises, SLA
- Google Vertex AI : Intégré à Google Cloud
2. Obtenir les Clés API
#Exemple : OpenRouter
curl -X POST https://openrouter.ai/api/v1/auth/key \
-H "Content-Type: application/json" \
-d '{"name": "llama4-test"}'
3. Effectuer Votre Première Requête
import openai
client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="VOTRE_CLE_API")
response = client.chat.completions.create(
model="meta-llama/llama-4-maverick",
messages=[
{"role": "user", "content": "Explique l'informatique quantique en termes simples"}])
print(response.choices[0].message.content)
Documentation Officielle : Guide OpenRouter Llama 4
Option 2 : Auto-Hébergement avec Hugging Face
Choisissez cette option si vous voulez un contrôle total, un déploiement privé ou un fine-tuning personnalisé.
Prérequis :
- 1× GPU NVIDIA H100 (pour Scout) ou 8× H100 (pour Maverick)
- 500 Go+ d’espace disque
- Ubuntu 22.04 ou version ultérieure
1. Installer les Dépendances
pip install transformers accelerate bitsandbytes
2. Télécharger le Modèle
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "meta-llama/Llama-4-Scout-109B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype="float16")
3. Exécuter l’Inférence
inputs = tokenizer("Traduire en français : Hello world", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0]))
Guide Officiel : Documentation Hugging Face Llama 4
Option 3 : Déploiement en Production avec Kubernetes
Cette option est idéale pour les applications à fort trafic nécessitant mise à l’échelle, supervision et fiabilité.
Pour les applications à fort trafic, envisagez un déploiement conteneurisé :
1. Utiliser NVIDIA Triton Inference Server
# triton-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
name: llama4-inference
spec:
replicas: 3
template:
spec:
containers:
- name: triton
image: nvcr.io/nvidia/tritonserver:25.01-py3
resources:
limits:
nvidia.com/gpu: 1
2. Configurer le Répertoire du Modèle
model_repository/
├── llama4_scout/
│ ├── config.pbtxt
│ └── 1/
│ └── model.plan
Documentation Officielle : NVIDIA Triton + Llama 4
Comment Fonctionne Llama 4 ?
Llama 4 est le modèle de langage multimodal avancé de Meta. Il utilise une architecture transformer de type mixture-of-experts et peut comprendre à la fois le texte et les images dans un système unifié. Certaines versions fonctionnent également avec la vidéo ou l’audio. Voici une explication claire de son fonctionnement sans entrer dans les détails complexes.

- Le Mécanisme de Base : Prédiction du Token Suivant
- Mixture-of-Experts : Utilisation Efficace des Paramètres
- Multimodalité Native : Texte et Images Ensemble
- Gestion des Entrées Très Longues
- Entraînement et Fine-Tuning
1. Le Mécanisme de Base : Prédiction du Token Suivant
Fondamentalement, Llama 4 fonctionne en lisant votre entrée, la convertissant en tokens et en prédisant le token suivant de manière répétée jusqu’à former une réponse complète.
Il utilise une pile importante de couches transformer entraînées sur d’énormes quantités de textes, d’images et d’autres données. Cet entraînement l’aide à reconnaître les motifs dans le langage, le code et le contenu visuel, ce qui lui permet de répondre naturellement à des instructions complexes.
2. Mixture-of-Experts : Utilisation Efficace des Paramètres
Une des plus grandes différences de Llama 4 est son système de mixture-of-experts (MoE). Au lieu d’activer l’ensemble du modèle pour chaque token :
- Le modèle est divisé en plusieurs experts spécialisés plus un expert partagé.
- Un petit réseau de sélection choisit le meilleur expert pour chaque token.
Cela signifie qu’une petite partie du modèle est active à tout moment, même si le modèle possède plus de 100B ou 400B de paramètres. Cela rend le système plus rapide, moins coûteux et plus facile à mettre à l’échelle tout en profitant d’une très grande capacité.
3. Multimodalité Native : Texte et Images Ensemble
Llama 4 ne traite pas la vision comme un ajout. Il traite le texte, les images et les images vidéo via le même backbone.
Voici comment cela fonctionne :
- Un encodeur visuel transforme une image ou une image vidéo en tokens.
- Ces tokens sont combinés avec les tokens texte dès le départ.
- Le transformer raisonne sur l’ensemble des tokens simultanément.
Cette approche de fusion précoce aide le modèle à comprendre le contexte à travers les formats, comme répondre à des questions sur une image ou combiner des informations visuelles avec le raisonnement textuel.
4. Gestion des Entrées Très Longues
Certaines versions de Llama 4, notamment Scout, peuvent gérer des entrées extrêmement longues atteignant des millions de tokens.
Ceci est rendu possible grâce à :
- Couches d’attention entrelacées
- Techniques améliorant la généralisation sur la longueur
- Ajustements architecturaux permettant au modèle de rester cohérent sur de longues séquences
Cela permet à Llama 4 de lire d’énormes documents, de longs transcriptions, des articles de recherche complets ou des bases de code étendues en une seule fois.
5. Entraînement et Fine-Tuning
Llama 4 passe par plusieurs étapes d’entraînement.
- Pré-entraînement : Le modèle apprend à partir de grandes quantités de textes et de données multimodales en prédisant les tokens suivants ou masqués.
- Ajustement par instructions : Il apprend à suivre plus fidèlement les instructions humaines naturelles.
- Alignement sécurité et ajustement de préférences : Il réduit les sorties nocives et améliore la qualité des réponses.
Différents modèles Llama 4 ciblent différents besoins. Scout se concentre sur l’efficacité et les contextes longs, Maverick apporte plus de puissance et de capacité multimodale, et Behemoth vise des performances de pointe.
Ce Qui se Passe Lorsque Vous l’Utilisez
Lorsque vous tapez une instruction ou téléchargez une image, le processus interne ressemble à ceci :
- Votre texte et vos images sont transformés en tokens.
- Le transformer les traite, et le réseau de sélection choisit l’expert approprié à chaque étape.
- Le modèle effectue l’attention sur l’ensemble de la fenêtre de contexte.
- Il prédit le token suivant encore et encore jusqu’à ce que votre réponse complète soit prête.
- Les tokens sont ensuite reconvertis en texte lisible.
Ce flux permet au modèle de combiner compréhension du langage, prise en compte de contextes longs et raisonnement multimodal dans une sortie unifiée.
Quelle méthodologie ai-je utilisée pour évaluer Llama 4 ?
Pour rendre cette revue de Llama 4 claire et cohérente, j’ai utilisé une approche structurée basée sur données vérifiées, benchmarks indépendants et retours d’utilisateurs réels.
Je n’ai pas réalisé de tests de déploiement pratiques car Llama 4 nécessite du matériel multi-GPU auquel je n’ai pas actuellement accès. Cette revue se concentre sur les informations pouvant être confirmées de manière indépendante.
L’objectif était de comprendre les capacités réelles de Llama 4, ses points forts et les limites signalées par les développeurs dans un usage quotidien. J’ai analysé les résultats officiels des benchmarks de Meta, les ai comparés à des évaluations externes et examiné le comportement du modèle dans des tests réels partagés par la communauté.
Ce que j’ai analysé
J’ai centré l’évaluation sur cinq domaines principaux :
- Preuves issues de benchmarks officiels : J’ai examiné les scores publiés par Meta lors de grandes évaluations telles que MMLU, GPQA Diamond, MMMU, HumanEval et LiveCodeBench pour établir une base fiable.
- Vérification indépendante : J’ai recoupé les affirmations de Meta avec des sources tierces incluant LMArena, Artificial Analysis et le classement officiel MMMU afin de confirmer où la performance publique correspond ou diffère des résultats de Meta.
- Retours de la communauté : J’ai examiné les rapports réels d’utilisateurs sur Reddit, les tests pratiques des créateurs sur YouTube, et les discussions techniques sur X/Twitter pour voir comment Llama 4 se comporte dans un usage concret.
- Comparaison avec la concurrence : J’ai comparé Llama 4 avec GPT-4o, Gemini 2.0 Flash et DeepSeek v3.1 en utilisant la documentation publique, les tableaux de benchmarks et la recherche académique portant sur la performance multimodale et sur de longs contextes.
- Limites et risques : J’ai inclus les conclusions du Stanford AI Index 2025, des recherches en sécurité de Kudelski et des études publiées sur la fuite de données et la reproductibilité des benchmarks pour mettre en évidence les principaux risques.
Quels sont les vrais benchmarks et limites de Llama 4 avant que je l’adopte ?
Si vous envisagez d’adopter Llama 4, les benchmarks montrent des points forts clairs, mais les retours du monde réel mettent en lumière des lacunes importantes. L’objectif ici est de montrer ce que les chiffres signifient réellement en pratique, et quelles limites vous devriez anticiper avant de l’utiliser.
- Comment Llama 4 gère le texte et les images
- Codage : solide mais pas parfait
- Raisonnement et connaissances
- Compréhension des contextes longs
- Limites critiques et controverses
Comment Llama 4 gère le texte et les images
Llama 4 peut lire le texte et comprendre les images en même temps. Sur le benchmark MMMU, qui évalue la capacité d’une IA à traiter à la fois texte et visuels, Maverick a obtenu 73,4 et a même surpassé les 69,1 de GPT-4o.
Il performe bien car il apprend à partir du texte, des images et des vidéos simultanément. Mais le monde réel est différent. Les photos d’usine, les scans médicaux ou toute image inhabituelle peuvent ne pas correspondre à ce que le modèle a vu pendant l’entraînement.
La recherche montre que la précision peut chuter d’environ 34 pour cent lorsque le modèle fait face à des images nouvelles ou inhabituelles. Il réussit donc bien dans les tests contrôlés, mais les résultats réels peuvent être moins fiables.
Codage : solide mais pas parfait
Pour le codage, Maverick peut résoudre environ 62 % des problèmes lors d’un test appelé HumanEval. GPT-4o résout 90 %, DeepSeek v3.1 résout 37 %, et Gemini 2.5 Pro résout 99 %. Llama 4 sait donc coder, mais ce n’est pas le meilleur.
Je vérifie toujours son code avant de l’utiliser dans des projets réels. Voici une comparaison rapide avec d’autres modèles IA à la date de juin 2025 :
| Test | Llama 4 Maverick | GPT-4o | Gemini 2.5 Pro | DeepSeek v3.1 |
| LiveCodeBench | 43,4 | 32,3 | 70,4 | 45,8 |
| HumanEval | ~62% | ~90% | ~99% | ~37% |
| GPQA Diamond (questions scientifiques) | 69,8 | 53,6 | 84,0 | 68,4 |
Raisonnement et connaissances
Llama 4 obtient de bons résultats aux tests de raisonnement général, avec un score de 80,5 sur MMLU Pro et 69,8 sur GPQA Diamond, surpassant parfois GPT-4o.
Cependant, le raisonnement complexe en plusieurs étapes reste difficile, et les problèmes nécessitant une logique exacte peuvent échouer. Même Stanford HAI avertit que “le raisonnement complexe reste un problème” pour les modèles actuels.
Compréhension des contextes longs
La fenêtre de contexte de 10 millions de tokens de Scout est une énorme amélioration par rapport aux 128K tokens de Llama 3. Meta rapporte une performance solide sur les tests de documents longs comme MTOB, surpassant Gemini et DeepSeek.
Dans un usage réel, toutefois, l’utilisation de la mémoire augmente et la précision diminue lorsque les contextes dépassent 1 million de tokens. Les benchmarks montrent un potentiel, mais la production peut être plus difficile.
Limites critiques et controverses
Voici le problème. Le test LMArena qui indiquait que Llama 4 avait surpassé GPT-4o n’utilisait pas la version publique. Il s’agissait d’un modèle spécial appelé Llama-4-maverick-03-26-experimental, décrit comme “optimisé pour la conversation”.
Meta a soumis cette version privée, ce qui signifie que les chiffres du benchmark en ligne pourraient sembler meilleurs que ce que la plupart des utilisateurs obtiennent réellement.
LMArena a même partagé qu’ils ont publié plus de 2 000 résultats de confrontations directes pour que tout le monde puisse voir, incluant prompts utilisateurs, réponses des modèles et préférences des utilisateurs.
Nous avons vu des questions de la communauté concernant la dernière version de Llama-4 sur Arena. Pour assurer une transparence totale, nous publions plus de 2 000 résultats de confrontations directes pour examen public. Cela inclut prompts utilisateurs, réponses des modèles et préférences des utilisateurs. (lien dans le tweet suivant)
Early…
— lmarena.ai (@arena) 8 avril 2025
Le chercheur Gary Marcus a documenté que ce modèle privé se comportait très différemment de la version publique. TechCrunch a rapporté que Meta a nié avoir entraîné le modèle sur les jeux de tests.
De plus, Stanford HAI avertit que les benchmarks difficiles comme FrontierMath, où l’IA réussit seulement 2 % du temps, et les problèmes de reproductibilité tels que la mémorisation des données de test par les modèles, peuvent rendre les résultats des benchmarks peu fiables en usage réel.
Llama vs GPT vs Gemini et autres modèles d’IA : Comment se comparent-ils ?
Voici un aperçu rapide et basé sur les données de la performance de Llama 4 par rapport à GPT-4o, Gemini 2.0 Flash et DeepSeek v3.1 en termes de coût, vision, codage, raisonnement, multilingue et contexte. Utilisez le tableau pour comparer rapidement les différences.
| Catégorie | Benchmark | Llama 4 Maverick | Gemini 2.0 Flash | DeepSeek v3.1 | GPT-4o |
| Coût d’inférence | Coût par 1M de tokens | 0,19 $–0,49 $ | 0,17 $ | 0,48 $ | 4,38 $ |
| Raisonnement sur images | MMMU | 73,4 | 71,7 | – (pas multimodal) | 69,1 |
| MathVista | 73,7 | 73,1 | – | 63,8 | |
| Compréhension d’image | ChartQA | 90,0 | 88,3 | – | 85,7 |
| DocVQA | 94,4 | – | – | 92,8 | |
| Codage | LiveCodeBench | 43,4 | 34,5 | 45,8 / 49,2 | 32,3 |
| Raisonnement & Connaissances | MMLU-Pro | 80,5 | 77,6 | 81,2 | – |
| GPQA Diamond | 69,8 | 60,1 | 68,4 | 53,6 | |
| Multilingue | Multilingual MMLU | 84,6 | – | – | 81,5 |
| Long contexte | MTOB (Demi-livre) | 54,0 / 46,4 | 48,4 / 39,8 | Contexte 128K | Contexte 128K |
| MTOB (Livre complet) | 50,8 / 46,7 | 45,5 / 39,6 | 128K | 128K | |
| Fenêtre de contexte | Contexte max | 1M tokens | non listé | 128K | 128K |
| Vitesse d’inférence | Tokens/sec (approx.) | ~126 t/s (GPU) / ~2 500 t/s (spécialisé) | ~128 t/s (varie) | Non divulgué | Non divulgué |
| Configuration matérielle | Configuration GPU min. | ~1× H100 ou multi-GPU | Configuration propriétaire | Inconnu / API seulement | Inconnu / API seulement |
| Évaluation globale | Score global (1–10) | 9,1 / 10 (⭐⭐⭐⭐⭐) | 8,6 / 10 (⭐⭐⭐⭐☆) | 8,8 / 10 (⭐⭐⭐⭐☆) | 8,4 / 10 (⭐⭐⭐⭐☆) |
Quels sont les vrais coûts d’utilisation de Llama 4 ?
Les tarifs de Llama 4 semblent abordables sur le papier, mais le coût réel dépend de l’utilisation de fournisseurs cloud ou de l’exécution sur votre propre matériel. Voici un aperçu rapide de ce que vous payez réellement dans chaque configuration.
| Fournisseur | Llama 4 Maverick | Llama 4 Scout | GPT-4o (comparaison) |
| Entrée (par 1M de tokens) | 0,19–0,49 $ | 0,15–0,30 $ | 2,50 $ |
| Sortie (par 1M de tokens) | 0,40–1,00 $ | 0,30–0,60 $ | 10,00 $ |
| Avantage de coût | 2–5× moins cher que GPT-4o | 3–8× moins cher | Référence |
Fournisseurs cloud populaires
- AWS Bedrock : Llama 4 Maverick à 0,49 $/M entrée et 1,00 $/M sortie
- Google Vertex AI : Llama 4 Scout à 0,30 $/M entrée et 0,60 $/M sortie
- Azure AI : Modèles Llama 4 disponibles (tarification à confirmer)
- OpenRouter : À partir de 0,19 $/M (Maverick) et 0,15 $/M (Scout)
Coûts d’auto-hébergement
Exécuter Llama 4 sur votre propre matériel peut réduire les dépenses à long terme, mais les exigences initiales sont élevées. Voici ce dont vous avez besoin avant de choisir cette option.
Configuration matérielle
- Llama 4 Scout (109B) : 1× GPU H100
Coût approximatif : 30 000 $ matériel ou 3 $/heure location cloud - Llama 4 Maverick (400B) : 8× GPU H100
Coût approximatif : 240 000 $ matériel ou 24 $/heure location cloud DGX
Analyse du point mort (100M tokens par mois)
À un usage élevé, l’auto-hébergement commence à inverser l’équation des coûts. Cette ventilation montre quand il devient réellement moins cher que d’utiliser les API de niveau GPT-4.
| Type de coût | Llama 4 Auto-hébergé | API GPT-4 |
| Infrastructure | ~8 000 $/mois (location H100) | 0 $ |
| Frais d’utilisation | 0 $ | ~250 000 $ |
| Total | 8 000 $ | 250 000 $ |
Point mort : L’auto-hébergement devient rentable à 10M–20M tokens par mois.
Recommandation AllAboutAI : Pour faciliter la décision, voici un guide simple basé sur l’utilisation mensuelle de tokens et la configuration technique dont vous disposez déjà. Après cette revue de Llama 4 dans des projets réels, j’ai pu constater ses points forts dans certains cas d’utilisation et ses limites dans d’autres. Voici pour qui il fonctionne le mieux et où la prudence est nécessaire.
Quand devriez-vous utiliser Llama 4 (et quand devriez-vous réfléchir à deux fois ?)
✅ Qui devrait utiliser Llama 4
⚠️ Qui ne devrait pas utiliser Llama 4

Llama 4 est-il sûr pour un usage en entreprise et les déploiements privés ?
Oui, mais seulement si vous ajoutez les bons contrôles de sécurité, de conformité et de gouvernance, car Llama 4 offre de la flexibilité, pas une sécurité automatique. Voyons ce que cela signifie concrètement.
Pourquoi les utilisateurs n’aiment-ils pas Llama 4 ?
Les Redditors disent que Llama 4 est difficile à exécuter localement en raison de sa taille massive, Scout ayant des performances insuffisantes et Maverick nécessitant du matériel sérieux. Certains estiment que les modèles n’apportent pas d’améliorations majeures par rapport à Llama 3.3 ou à des alternatives comme Gemma et Command A.
D’autres mettent en avant un débit élevé sur les configurations CPU-GPU hybrides, un bon support multimodal et une performance plus rapide avec des outils comme Llama.cpp. Cependant, des préoccupations subsistent concernant les temps de démarrage lents, l’absence de petits modèles et la qualité incohérente selon les tâches.
Prise en main de Scout & Maverick
Un autre fil Reddit indique que Llama 4 reçoit des retours mitigés de la part des utilisateurs locaux. Certains trouvent Scout extrêmement rapide pour les tâches textuelles et utile pour la recherche, l’extraction et la gestion de contextes longs.
D’autres soulignent le potentiel de Maverick comme alternative gratuite à GPT-4o si vous avez le matériel, surtout avec des configurations intelligentes de délestage et de quantification.
Cependant, beaucoup notent que Scout semble superficiel, a des difficultés avec le codage et ne rivalise pas avec des modèles comme Gemma 3 en termes de qualité. Les plaintes incluent de fortes exigences en RAM, des sorties inconsistantes et l’absence de petites variantes efficaces.
L’architecture est prometteuse, mais les problèmes de performance et d’utilisabilité limitent son attrait pour la plupart des utilisateurs locaux aujourd’hui.
Meta abandonne les plans Behemoth
Llama 4 Behemoth serait annulé, Meta pouvant orienter les futurs modèles vers le closed-source. Les Redditors ont mis en évidence des erreurs internes telles que l’attention fragmentée et des changements de routage expert en cours de formation comme principales raisons de cet échec.
De nombreux utilisateurs estiment que Meta est revenue sur ses promesses open-source, citant de mauvaises performances sur les longs contextes et un développement précipité sous pression concurrentielle.
La communauté considère cela comme un signe que l’innovation open-weight en Occident ralentit, surtout face à la montée de modèles comme DeepSeek et Qwen.
Llama 3 est-il vraiment meilleur que Llama 4 ?
Plusieurs utilisateurs rapportent que Llama 3.3 70B et 3.1 405B surpassent Llama 4 Maverick dans des tâches réelles comme le codage, l’édition et le suivi des instructions.
Bien que Llama 4 offre une inférence plus rapide grâce à son architecture MoE, le temps gagné est souvent compensé par des erreurs fréquentes et une fiabilité moindre des résultats.
Scout est apprécié pour sa vitesse et sa légèreté, mais jugé faible pour les tâches de codage. Maverick performe bien dans l’appel de fonctions, mais les utilisateurs notent son incohérence selon les cas d’usage et l’implémentation du fournisseur.
Globalement, beaucoup préfèrent encore Llama 3.3 pour sa stabilité, sa qualité et sa constance, surtout pour un usage en production.
L’avenir de Llama 4 : Qu’est-ce qui arrive ensuite ?
Meta prépare la prochaine étape de Llama 4, en se concentrant sur un raisonnement plus solide, une interaction naturelle et des capacités de génération plus avancées. Mark Zuckerberg a partagé que l’entraînement de Llama 4 a nécessité dix fois plus de calcul que Llama 3, soulignant l’ampleur de l’engagement de Meta envers l’IA.
Voici les principaux axes sur lesquels Meta travaille :
- Entrée et sortie vocale native
- Outils vidéo génératifs tels que Meta MovieGen
- Raisonnement sur de longs contextes dépassant 100 000 tokens
- Amélioration de la sécurité et de l’alignement pour les sujets sensibles
- Plus grande utilisation des puces IA internes de Meta pour réduire la dépendance au matériel externe