Ce qu'il faut retenir▾
- Alibaba a publié le 3 juillet 2026 la version 1.11.0 de page-agent, un agent IA qui s'exécute en JavaScript directement dans la page web : pas d'extension, pas de navigateur headless, pas de capture d'écran, juste une lecture textuelle du DOM.
- Le projet open source sous licence MIT affiche 23 400 étoiles et plus de 2 000 forks sur GitHub, fonctionne avec le LLM de votre choix, et propose une extension Chrome optionnelle pour le multi-page ainsi qu'un serveur MCP en bêta.
- Les cas d'usage mis en avant vont du copilote IA pour SaaS au remplissage intelligent de formulaires ERP ou CRM, avec une intégration possible en une seule ligne de script ou via npm install page-agent.
Résumé généré par IA
Le 3 juillet 2026, Alibaba a publié la version 1.11.0 de page-agent, un projet open source qui permet de piloter n'importe quelle interface web en langage naturel, sans extension de navigateur, sans navigateur headless et sans capture d'écran. Le dépôt GitHub affiche déjà 23 400 étoiles et plus de 2 000 forks, un score qui traduit un vrai intérêt de la communauté pour ce pont entre le web classique et les agents IA.
Concrètement, page-agent s'exécute comme un simple script JavaScript injecté dans votre page. Il transforme une interface web existante en quelque chose qu'un agent IA sait lire et manipuler, sans toucher à votre backend. C'est l'angle qui rend ce projet intéressant pour un développeur ou une PME qui n'a ni le temps ni le budget pour repenser son produit autour de l'IA.
Le problème que page-agent résout
Petit rappel pour ceux qui découvrent le sujet : automatiser un navigateur pour qu'un agent IA clique, remplisse un formulaire ou navigue dans une application demande historiquement une pile assez lourde. Il faut une extension de navigateur, ou un navigateur headless piloté depuis un script Python ou Node, ou un modèle multimodal capable d'interpréter des captures d'écran successives. Ces approches fonctionnent, mais elles ajoutent de la latence, des dépendances externes et un coût d'inférence lié à l'analyse d'images.
Page-agent prend le problème dans l'autre sens. Le script tourne directement dans la page, lit le DOM sous forme de texte structuré (pas de capture d'écran) et transmet cette représentation textuelle à un LLM chargé de décider de la prochaine action : cliquer, saisir du texte, faire défiler. Selon la documentation officielle du projet, ce choix élimine le besoin d'un modèle multimodal et de permissions système particulières.
Une intégration en une ligne, ou via npm
Pour un test rapide, une simple balise script suffit, pointée vers un CDN (jsDelivr en version globale, un miroir npmmirror pour la Chine) avec une clé de démonstration fournie par Alibaba. Le README précise clairement que ce mode reste réservé à l'évaluation technique. Pour un usage réel, l'installation passe par npm :
npm install page-agentPuis, côté code :
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus',
baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
apiKey: 'YOUR_API_KEY',
language: 'fr-FR',
})
await agent.execute('Clique sur le bouton de connexion')Le point notable : page-agent revendique le principe "bring your own LLM". L'exemple officiel connecte l'agent à Qwen3.5-Plus via l'API compatible DashScope, mais l'architecture accepte toute API compatible avec ce format de complétion, en changeant simplement baseURL et apiKey. Vous gardez la main sur le modèle choisi et sur l'endroit où transitent vos données.
Multi-page, extension Chrome et serveur MCP
Pour les parcours qui dépassent une seule page (plusieurs onglets, plusieurs domaines), le projet propose une extension Chrome optionnelle qui étend la portée de l'agent au-delà de l'onglet courant. Un serveur MCP (Model Context Protocol), encore en bêta, permet en plus de piloter le navigateur depuis l'extérieur : un client d'agent compatible MCP peut alors déclencher des actions concrètes dans une page web, comme il déclencherait un appel d'outil classique.
Les cas d'usage mis en avant par Alibaba
- Copilote IA pour SaaS : ajouter un assistant conversationnel à un produit existant en quelques lignes de code, sans réécriture du backend.
- Remplissage intelligent de formulaires : transformer un parcours de vingt clics en une phrase, pensé pour les ERP, CRM et interfaces d'administration.
- Accessibilité : rendre une application pilotable par commande vocale ou lecteur d'écran, sans barrière technique côté utilisateur.
- Agent multi-page : étendre la portée d'un agent web personnel à plusieurs onglets grâce à l'extension Chrome.
- MCP : permettre à un client d'agent externe de piloter le navigateur.
Le projet est distribué sous licence MIT et compte 34 releases à ce jour, la dernière (v1.11.0) datée du 3 juillet 2026. Le README crédite explicitement le projet browser-use pour les composants de traitement du DOM et les prompts qui ont servi de base à page-agent, tout en précisant que ce dernier vise le web côté client, pas l'automatisation côté serveur.
Notre lecture chez CZSyn
On retient de page-agent une bascule d'approche plus qu'un simple outil de plus dans la liste. Depuis deux ans, l'automatisation web pilotée par IA s'est surtout construite autour du navigateur headless et de la capture d'écran analysée par un modèle multimodal : une approche lourde à opérer, coûteuse en tokens et fragile dès que l'interface change. Page-agent parie sur l'inverse, injecter l'intelligence dans la page elle-même, avec une représentation textuelle du DOM que n'importe quel LLM texte, donc moins cher à l'usage, sait interpréter.
Pour une PME française qui fait tourner un ERP maison, un back-office ou un CRM interne vieillissant, l'intérêt est concret : rendre une interface existante, même peu pensée pour l'accessibilité ou la rapidité de saisie, pilotable en langage naturel, sans toucher au backend. C'est un chantier nettement plus léger et moins coûteux qu'une refonte complète du produit.
Un point de vigilance s'impose avant toute mise en production : le mode d'intégration le plus rapide, la balise script pointée vers un CDN, expose une clé API côté client. Adapté à l'évaluation technique, ce mode ne l'est pas pour un usage avec une vraie clé LLM et des données sensibles. Toute intégration sérieuse doit faire transiter cette clé par un backend ou un proxy, jamais l'exposer telle quelle dans le JavaScript livré au navigateur. C'est le type de détail d'architecture que nous vérifions systématiquement avant la mise en ligne d'un projet client.
Reste à voir comment page-agent s'installe dans la durée face aux autres approches d'automatisation web pilotée par IA. Sur le terrain précis de l'intégration côté client, sans réécriture de backend et sans dépendance à un navigateur headless, la proposition est aujourd'hui l'une des plus directes du marché.
Envie d'ajouter un copilote IA à votre site ou votre back-office ?
Nous auditons votre interface existante et évaluons la meilleure façon d'y intégrer un agent IA, sans réécriture lourde. Audit gratuit sous 24h, développement sur-mesure ou dépannage selon vos besoins.
29 AVIS 5/5 · +200 PROJETS LIVRÉS · RÉPONSE EXPRESS
Sources primaires
- Dépôt officiel GitHub, alibaba/page-agent, version 1.11.0, 3 juillet 2026.
- Documentation officielle du projet, alibaba.github.io/page-agent.
- Projet à l'origine des composants DOM et des prompts utilisés, browser-use/browser-use, cité dans les remerciements du README de page-agent.
