Skip to content
ESSAI : GPT-5.5-Cyber et Daybreak — l’IA qui pense comme un hacker, mais pour les défenseurs
Crédit: Adobe Stock

Les benchmarks qui impressionnent

GPT-5.5-Cyber atteint un score de 85,6 % sur le CyberGym, le benchmark qui mesure si un modèle d’IA peut reproduire des vulnérabilités connues dans des environnements logiciels de test. C’est en hausse par rapport aux 81,8 % du GPT-5.5 standard et représente «le score le plus élevé jamais mesuré par un seul modèle» sur ce benchmark, selon OpenAI. Sur l’ExploitGym — qui teste si le modèle peut transformer des vulnérabilités connues en exploits fonctionnels atteignant une exécution de code non autorisée — GPT-5.5-Cyber atteint 39,5 % contre 25,95 % pour le GPT-5.5 standard, soit une amélioration de 13,5 points.

Ces chiffres méritent un regard critique. Le CyberGym est un benchmark interne d’OpenAI. Il mesure la capacité à reproduire des vulnérabilités connues dans des environnements de test — pas la capacité à trouver de nouvelles vulnérabilités dans des systèmes en production. C’est une distinction importante. Un modèle qui score 85,6 % en reproduction de vulnérabilités connues est impressionnant — mais ce n’est pas la même chose que de détecter un zero-day dans un système complexe inconnu. La communication d’OpenAI, rigoureuse sur ce point, évite cette confusion. D’autres commentateurs, moins nuancés, ont fait l’amalgame.

Ce que le modèle a déjà accompli en pratique

Au-delà des benchmarks, les résultats pratiques de Daybreak sont concrets et vérifiables. GPT-5.5 et les modèles Codex Security ont contribué à identifier des vulnérabilités réelles dans des systèmes largement utilisés : 8 preuves de concept de fuite de pointeur kernel et 24 exploits d’escalade de privilèges locaux dans le kernel Linux. Un use-after-free vieux de 23 ans dans l’implémentation des sémaphores System V du kernel OpenBSD. 34 vulnérabilités et 7 exploits d’escalade de privilèges dans FreeBSD. 5 vulnérabilités exploitables dans le moteur JavaScript V8 de Google Chrome. Plus de 10 vulnérabilités dans Apple Safari.

L’exemple Firefox est particulièrement révélateur : Mozilla a corrigé une vulnérabilité WebAssembly (CVE-2026-8390), trouvée avec GPT-5.5, deux jours avant le concours de hacking Pwn2Own Berlin. Cinq des six équipes inscrites à ce concours ciblant Firefox ont ensuite retiré leur participation. Cette chronologie est presque cinématographique : l’IA trouve la faille, le constructeur la corrige, et les hackers — qui avaient probablement découvert la même faille — se retrouvent sans cible. C’est la promesse de Daybreak en une séquence.


L’histoire Firefox/Pwn2Own est la preuve de concept la plus convaincante que j’ai vue pour l’utilité défensive de l’IA en cybersécurité. Ce n’est pas théorique — c’est un bug réel, corrigé à temps, qui a probablement empêché un vrai exploit public. Voilà ce que « accélérer les défenseurs » signifie concrètement.

Ce contenu a été créé avec l'aide de l'IA.

facebook icon twitter icon linkedin icon
Copié!
Plus de contenu