Marketing

Context window

Définition mise à jour le 20 mai 2026Par Brandyze

La context window est la quantité maximale de tokens qu'un LLM peut traiter en une seule requête (input + output combinés) ; en 2026, elle varie de 8k tokens (anciens modèles) à 2M tokens (Gemini 1.5/2.5 Pro), avec un impact direct sur les capacités de RAG, l'analyse de documents longs et le coût.

Définition détaillée

Évolution rapide : GPT-3 (2020) avait 2k tokens, GPT-4 (2023) 8k-32k, Claude 2 (2023) 100k, Gemini 1.5 (2024) 1M, Claude Sonnet 4 (2025) 200k-1M, GPT-5 (2025) 400k. Conséquences : un LLM avec 1M tokens peut absorber ~750k mots = un livre de 1500 pages. Mais : (1) **performance dégradée** au-delà de ~75% de la window ("lost in the middle"), (2) **coût linéaire** — 1M tokens × $5/M = $5 par requête, (3) **latence** proportionnelle. Bonnes pratiques : utiliser une grande context window pour les analyses ad-hoc (audit complet), préférer RAG ciblé pour les workflows répétitifs (économies 10-100x).

Exemple concret

Brandyze "omni_audit" envoie 30 posts + brand_context + 5 concurrents = ~50k tokens à Gemini 2.5 Pro (2M context). Coût ~$0.30 par audit. Si réalisé avec un modèle 8k tokens, il faudrait découper en 7 requêtes séquentielles avec perte de cohérence.

Pourquoi c'est important pour le marketing 2026

L'IA générative et le MCP transforment le quotidien marketing : tâches qui prenaient 8h se font en 30 min, mais la curation humaine et la stratégie restent décisives. Comprendre ces concepts est une compétence socle.

Brandyze et Context window

Brandyze utilise des context windows larges (Gemini 2.5 Pro 2M, Claude 4 Sonnet 1M) pour les analyses cross-content (omni_audit, decode_and_reproduce). Pour les générations à haut volume, nous restons sur Gemini Flash (1M context, prix bas).

Questions fréquentes

Plus la context window est grande, mieux c'est ?

Pas toujours. Au-delà de 75% de la window, les modèles 2024-2026 montrent une dégradation ("needle in haystack" partiel). Préférer une window adaptée à votre cas + RAG pour cibler le contenu pertinent.

Faut-il bourrer le contexte ?

Non. Un contexte plus court et ciblé (5-10k tokens bien choisis) performe souvent mieux qu'un contexte saturé (500k tokens diffus). RAG bien fait > brute force.

Sources externes citées

Maîtrisez ce concept sur votre marque

Essai gratuit 7 jours sans CB. Tous les studios Brandyze débloqués pour appliquer ces concepts à vos cas d'usage réels.

Démarrer mon essai gratuit