Ce qu'il faut retenir▾
- Un ticket ouvert le 27 juin 2026 sur le dépôt GitHub d'OpenAI Codex documente un phénomène statistique troublant : les réponses de GPT-5.5 s'arrêtent démesurément souvent à exactement 516 tokens de raisonnement, avec des pics secondaires à 1034 et 1552.
- Entre février et mai 2026, la part des réponses GPT-5.5 s'arrêtant pile à 516 tokens est passée de 0,11 % à 53,30 %, alors que l'intensité moyenne de raisonnement chutait sur la même période, un signal jugé incohérent avec une variation naturelle liée à la difficulté des tâches.
- Il s'agit d'un signal communautaire non confirmé par OpenAI à ce stade : si vous confiez à GPT-5.5 des tâches Codex complexes ou à enjeu élevé, surveillez vos métadonnées token_count et gardez un modèle de repli sous la main.
Résumé généré par IA
Le 27 juin 2026, un développeur a ouvert sur le dépôt GitHub officiel d'OpenAI Codex un ticket qui commence à circuler dans les équipes qui pilotent des agents de code en production : les réponses générées par GPT-5.5 s'arrêtent anormalement souvent à exactement 516 tokens de raisonnement, avec des pics secondaires à 1034 et 1552. L'auteur, vguptaa45, y voit un possible lien avec les régressions de qualité observées sur certaines tâches Codex complexes.
Avant d'aller plus loin, une précision s'impose : ce ticket, référencé sous le numéro 30364, n'est pas une confirmation officielle d'OpenAI. C'est un signal remonté par la communauté, construit à partir de métadonnées publiques exposées par Codex. Aucun correctif ni aucune réponse de l'équipe Codex n'a encore été publiée au moment de la rédaction de cet article. Ce qui suit est donc à lire comme un faisceau d'indices statistiques, pas comme un bug confirmé.
Les reasoning tokens, en deux mots
Quand un modèle de la famille GPT-5 travaille en mode raisonnement, il génère en interne une chaîne de pensée avant de produire sa réponse finale. Cette chaîne consomme des tokens, comptabilisés séparément dans les métadonnées token_count exposées par Codex sous la forme reasoning_output_tokens. Plus une tâche est complexe, plus le modèle est censé mobiliser de tokens de raisonnement, dans une logique de budget qui varie naturellement selon la difficulté. C'est justement cette variation naturelle que le ticket dit avoir vu disparaître pour GPT-5.5.
Ce que montrent les chiffres
L'auteur a analysé 390 195 enregistrements de réponses répartis sur 865 sessions, sur la période du 1er février au 27 juin 2026. Sur cet échantillon, 3 363 réponses s'arrêtent à exactement 516 tokens de raisonnement. GPT-5.5 ne représente que 19,3 % de l'ensemble des réponses analysées, mais concentre 82,0 % de ces événements à exactement 516 tokens.
Ramené à un ratio, cela donne : 44,0 % des réponses GPT-5.5 qui atteignent au moins 516 tokens de raisonnement s'arrêtent pile à cette valeur, contre seulement 1,3 % pour les autres modèles regroupés, soit un écart d'environ 33,6 fois selon les calculs de l'auteur. Le détail par modèle est parlant :
- gpt-5.5 : 75 401 réponses analysées, ratio exact-516 de 44,0 %
- gpt-5.4 : 25 214 réponses, ratio de 19,8 %
- gpt-5.2 : 247 575 réponses, ratio de 0,34 %
- gpt-5.3-codex : 13 333 réponses, ratio de 0,0 %
- gpt-5.3-codex-spark : 26 179 réponses, ratio de 0,0 %
La dimension temporelle renforce encore le signal. La part des réponses GPT-5.5 qui s'arrêtent exactement à 516 tokens a explosé mois après mois : 0,11 % en février, 2,45 % en mars, 4,25 % en avril, puis un bond à 53,30 % en mai et 35,84 % en juin. Dans le même temps, l'intensité moyenne de raisonnement a diminué : de 268,1 tokens en moyenne en février (P90 à 772) à seulement 106,9 en moyenne en mai (P90 à 344), avant une légère remontée à 168,5 en juin (P90 à 515).
Autrement dit, le modèle réfléchit en moyenne moins longtemps qu'en début d'année, tout en s'arrêtant de plus en plus souvent pile sur les mêmes valeurs fixes. Pour l'auteur du ticket, cette combinaison ressemble moins à une variation naturelle liée à la difficulté des tâches qu'à un comportement de seuil : un budget de raisonnement plafonné, un routage vers un mode dégradé, ou un mécanisme de repli qui coupe court au-delà d'un certain point.
Le ticket s'appuie aussi sur un précédent, l'issue 29353, qui documentait un cas concret dans Codex Desktop où une exécution de GPT-5.5 en mode xhigh s'arrêtait à exactement 516 tokens de raisonnement et retournait la mauvaise réponse. Le nouveau ticket élargit cette observation isolée à une analyse statistique menée sur plusieurs mois.
Êtes-vous concerné ?
Si vous utilisez Codex avec GPT-5.5 sur des tâches ponctuelles (autocomplétion, petites corrections, revues rapides), l'impact est probablement marginal : les cas signalés concernent des tâches complexes ou à enjeu élevé, là où un raisonnement long est justement le plus nécessaire. Le risque est réel si vous déléguez à Codex des tâches qui demandent plusieurs étapes de raisonnement chaînées : migrations de code non triviales, débogage d'un problème qui nécessite d'explorer plusieurs hypothèses, génération de logique métier complexe.
Concrètement, voici ce que vous pouvez vérifier dès aujourd'hui si vous avez accès aux métadonnées de vos appels Codex :
- Repérez la distribution de
reasoning_output_tokenssur vos propres logs, si vous les conservez. - Regardez si une proportion anormale de vos réponses GPT-5.5 s'arrête exactement à 516, 1034 ou 1552.
- Sur les tâches critiques, comparez une exécution GPT-5.5 avec une exécution GPT-5.2, dont le ratio exact-516 mesuré par l'auteur du ticket n'est que de 0,34 %.
- En attendant une réponse officielle d'OpenAI, gardez un mécanisme de nouvelle tentative ou de bascule de modèle sur vos tâches Codex les plus sensibles.
Notre lecture chez CZSyn
Ce genre de ticket illustre un problème structurel de l'IA générative en production : l'opacité du raisonnement interne des modèles rend très difficile la détection de régressions silencieuses. Un budget de tokens de raisonnement qui se resserre sans annonce ne casse rien de visible côté API, aucun message d'erreur, aucun changelog. Cela dégrade juste, discrètement, la qualité des réponses sur les cas les plus difficiles, ceux où l'on a justement le moins de marge pour se tromper.
Pour les équipes françaises qui intègrent Codex ou d'autres agents IA dans leurs pipelines de développement, la leçon est simple : ne jamais traiter un agent de code comme une boîte noire fiable à cent pour cent sur les tâches à enjeu élevé. Gardez une revue humaine sur les livrables critiques, loggez ce que vous pouvez, et suivez ce genre de ticket communautaire, souvent les premiers à remonter les signaux faibles avant les correctifs officiels. Nous recommandons, en attendant que OpenAI clarifie ce point, de garder un second modèle en secours sur les tâches sensibles, et de ne pas hésiter à relancer une génération quand un résultat semble étonnamment court ou incomplet.
Vos agents IA de développement méritent une vraie supervision
Nous auditons vos intégrations IA (Codex, Copilot, Claude) pour sécuriser vos pipelines de développement et éviter les régressions silencieuses. Audit gratuit sous 24h.
29 AVIS 5/5 · +200 PROJETS LIVRÉS · RÉPONSE EXPRESS
Sources primaires
- GitHub, issue officielle du dépôt openai/codex, « GPT-5.5 Codex reasoning-token clustering at 516/1034/1552 may be leading to degraded performance on complex tasks » #30364, ouverte le 27 juin 2026.
- GitHub, issue liée « gpt-5.5 xhigh sometimes short-circuits with reasoning_output_tokens=516 and wrong final_answer in Codex Desktop » #29353.
- Dépôt officiel openai/codex sur GitHub.
