Gemini 3 : pourquoi votre IA s'arrête de parler
Gemini 3 et le piège du budget de pensée : pourquoi votre IA coupe net. Solutions pratiques pour contourner la cannibalisation budgétaire des tokens.
Gemini 3 : pourquoi votre IA s'arrête de parler - Expertise transformation numérique PME Québec Force5
Gemini 3 : pourquoi votre IA s’arrête de parler
Dans les labos de Force5, l’arrivée de Gemini 3 a été célébrée en grand. Depuis sa sortie officielle le 18 novembre dernier, on l’a passé à la tordeuse : on l’a utilisé pour du vibe coding, on a scruté ses réactions face à nos GEMS et master prompts, et on l’a challengé avec des tests de chat d’une complexité variable.
On a même poussé l’audace jusqu’à faire des Deep Searches intensifs pour le comparer aux ténors du marché, notamment Perplexity, le maître incontesté de la recherche profonde.
Globalement, c’est un pas de géant dans le monde des grands modèles. Nos tests internes rejoignent d’ailleurs la pensée d’une majorité d’observateurs qui ont encensé les performances, la qualité du raisonnement et la logique du texte produit. Ce n’est probablement qu’un petit pas dans la stratégie globale de Google, mais le résultat est là : à part avoir observé une dérive de l’interface avec la fenêtre Canvas, Gemini 3.0 est stellaire.
C’était la lune de miel… jusqu’à ce qu’on lance un test vraiment costaud : la rédaction d’un rapport volumineux. C’est là qu’on a découvert un “détail” qui n’en est pas un. C’est un problème de gestion majeur qui nous a fait réaliser toute la distance entre le marketing de Google et la réalité du terrain.
Ce problème, c’est que votre IA, aussi intelligente soit-elle, s’essouffle avant d’avoir fini de parler. Voici pourquoi ça arrive et, surtout, comment vous pouvez gérer ça sans perdre la tête.
1. Le piège du “Budget de Pensée”
C’est la grande nouveauté de Gemini 3 : il réfléchit avant de parler via le Dynamic Thinking. Sur papier, c’est un monstre de générosité. Avec une fenêtre de sortie de 64 000 tokens, il écrase techniquement la plupart des concurrents standards comme Claude 3.5 Sonnet (souvent limité autour de 8k tokens en sortie) ou les modèles GPT classiques.1
Mais voilà l’arnaque : Gemini a les yeux plus gros que le ventre. Nos comparatifs montrent qu’il gère ce “trésor de guerre” avec une inefficacité surprenante. Là où un modèle comme Claude utilise ses tokens pour écrire du contenu utile pour vous, Gemini 3.0 a tendance à “sur-réfléchir”. Il est incroyablement verbeux… dans sa tête. Il n’est pas rare de le voir brûler une quantité astronomique de ressources pour planifier et vérifier sa réponse avant même d’écrire le premier mot visible.3
C’est ce qu’on appelle la cannibalisation budgétaire. Le problème structurel est simple : ses pensées internes et sa réponse finale pigent dans la même caisse de 64k tokens.3
Si vous lui demandez de refactoriser un gros fichier de code :
- Il va passer 40 000 tokens à “penser” à la structure, analyser les dépendances et vérifier les erreurs (un processus beaucoup plus lourd que chez la compétition).
- Il lui reste donc seulement 24 000 tokens pour écrire le code final.
- Résultat? Il commence à écrire et coupe net dès qu’il frappe le mur du total, souvent en plein milieu d’une fonction critique.3
2. Le fantôme dans la machine (Le bug du “Ghost Code”)
Parfois, le modèle a réellement fini son travail, mais vous ne le voyez pas. C’est un phénomène que les utilisateurs appellent le “Ghost Code”.
Ça se passe souvent dans l’interface Canvas. Vous voyez le texte défiler, ça clignote, et hop! Les derniers paragraphes disparaissent juste avant de s’afficher. Ce n’est pas le cerveau de l’IA qui a flanché, c’est l’affichage (le frontend). Une sorte de bug de synchronisation entre le moment où les données arrivent et le moment où votre navigateur les affiche.4
Le pire? Si vous lui demandez “Hey, tu as oublié la fin”, il est capable de vous la recracher par cœur. La preuve qu’il l’avait générée, mais que l’interface l’a échappée en chemin.4
3. Les solutions (Système D)
En attendant que Google sorte une patch (probablement pour séparer les budgets de pensée et de réponse), voici comment vous pouvez contourner le problème dès maintenant dans vos opérations :
- Arrêtez le copier-coller dans Canvas : Si Gemini vous dit “Je ne vois pas de code/texte” alors que vous venez de le coller, c’est le bug de synchronisation. La solution : Sauvegardez votre code dans un fichier (ex: .py ou .txt) et utilisez le bouton Upload (+). Ça force le système à lire le fichier par un autre chemin qui est beaucoup plus stable.5
- Gérez le niveau de pensée : Pour des tâches simples (résumer un texte, formater des données), le mode “High Thinking” (activé par défaut) est du gaspillage de ressources. Si vous avez accès à l’API, forcez le paramètre thinking_level à low pour récupérer de l’espace pour la réponse.6
- Diviser pour régner : Ne lui demandez pas de réécrire 2000 lignes de code d’un coup. Allez-y module par module. “Fais juste les fonctions A et B” réinitialise le compteur pour le prochain tour.
- Changer de chat (Le “Hard Refresh”) : Si vous sentez que le modèle s’enlise, demandez à Gemini de “fabriquer un document de contexte pour poursuivre dans un nouveau chat frais”. Il générera un document de continuation technique spécifiquement conçu pour lui-même. Collez ce texte dans une nouvelle conversation pour repartir avec un esprit clair. Attention : le contexte des fichiers ne suit pas ; vous devrez lui redonner vos fichiers (RAG) manuellement dans la nouvelle fenêtre.
- Pour le terminal (CLI) : Si vous utilisez Gemini en ligne de commande et que les listes numérotées coupent après le point 1, redirigez la sortie vers un fichier texte (> output.txt). Vous verrez que la réponse est complète dans le fichier, c’est juste l’affichage console qui bogue.7
4. Un problème universel (Même avec l’API)
Chez Force5, on ne s’est pas arrêtés à l’interface web. On a aussi testé Antigravity, la plateforme de développement de Google qui tape directement dans l’API de Gemini 3.0. Le constat est clair : les maux de tête ne sont pas réservés aux utilisateurs gratuits.
- L’API n’est pas magique : Les enjeux de limitation de la fenêtre de sortie s’appliquent aussi quand on code via l’API. C’est même parfois plus complexe à gérer car l’erreur est moins visuelle et peut briser des pipelines d’automatisation.
- La réalité du Vibe Coding : Google pousse fort le “Vibe Coding” (coder en langage naturel). Pour l’instant, c’est en accès libre pour faire du bruit marketing, et les avertissements sont clairs. Mais attention : les vidéos YouTube de gens qui codent des petits jeux en HTML5, ce n’est pas la réalité. Sur une vraie base de code professionnelle, c’est extrêmement facile d’atteindre les limites d’appels API.
- Quand ça marche, ça marche fort : Il faut rendre à César ce qui est à César. Malgré ces limites, quand Gemini 3.0 réussit sa passe, le résultat est très, très impressionnant.
Il ne faut pas oublier que Gemini 3 vient tout juste de sortir et qu’on est en pleine période de rodage. Mais ce manque de distinction entre le budget de “réflexion” et le budget de “réponse” est problématique. Pour l’instant, c’est un facteur limitant majeur pour les pros.
Le mot de la fin
Gemini 3.0 est une bête de course, mais il est bavard “intérieurement”. Pour l’instant, il faut le piloter avec un peu de doigté. Ne présumez pas qu’il est brisé, présumez qu’il a juste trop réfléchi et qu’il n’a plus de souffle pour finir sa phrase.
Bonne chance avec vos prompts!
Sources des citations
- Gemini 3 Developer Guide | Gemini API - Google AI for Developers, consulté le novembre 30, 2025, https://ai.google.dev/gemini-api/docs/gemini-3
- Google Gemini 3 Benchmarks (Explained) - Vellum AI, consulté le novembre 30, 2025, https://www.vellum.ai/blog/google-gemini-3-benchmarks
- “Low” Reasoning Instability & Output Budget Cannibalization (Gemini 3.0 Pro), consulté le novembre 30, 2025, https://discuss.ai.google.dev/t/low-reasoning-instability-output-budget-cannibalization-gemini-3-0-pro/109840
- Content Truncation Failures within the Gemini.google.com Canvas, consulté le novembre 30, 2025, https://support.google.com/gemini/thread/373967226/content-truncation-failures-within-the-gemini-google-com-canvas?hl=en
- Canvases not being saved - Google Help, consulté le novembre 30, 2025, https://support.google.com/gemini/thread/388627459/canvases-not-being-saved?hl=en
- Gemini thinking | Gemini API - Google AI for Developers, consulté le novembre 30, 2025, https://ai.google.dev/gemini-api/docs/thinking
- CLI output is truncated when rendering numbered lists · Issue #9031 · google-gemini/gemini-cli - GitHub, consulté le novembre 30, 2025, https://github.com/google-gemini/gemini-cli/issues/9031
gemini 3 dynamic thinking budget tokens cannibalisation budgétaire IA modèles de langage Google Gemini problèmes techniques IA gemini 3.0 thinking budget tokens limitation ghost code canvas bug vibe coding API Gemini
Notre perspective chez Force5
Chez Force5, nous ne sommes ni une agence web ni un simple revendeur de logiciels. Notre rôle est celui d'architecte de la transformation numérique. Nous aidons les entreprises à repenser leurs opérations en intégrant des systèmes de gestion d'entreprise (ERP), des plateformes de relation client (CRM), des portails web sur mesure et des solutions d'intelligence d'affaires.
C'est en étant au cœur des systèmes névralgiques de nos clients que nous sommes aux premières loges des changements technologiques et de leur impact sur la performance de l'entreprise. Notre approche est agnostique et vise uniquement à aligner la technologie sur vos objectifs d'affaires pour générer une valeur tangible.
Avec notre aide, ne subissez pas le changement, pilotez-le !
Restez informé
Recevez nos derniers articles directement dans votre boîte de réception.
Merci ! Vérifiez votre email pour confirmer votre inscription.
Ou abonnez-vous via RSS