Tencent a publié un nouveau benchmark pour évaluer les capacités créatives des modèles d'IA. Contrairement aux benchmarks traditionnels axés sur la précision, celui-ci mesure l'originalité et la créativité.
Le Problème des Benchmarks Actuels
Les benchmarks classiques (MMLU, HumanEval, etc.) mesurent :
- La précision des réponses
- Le raisonnement logique
- Les connaissances factuelles
- La capacité à suivre des instructions
Mais ils ne captent pas ce qui rend une IA utile pour les tâches créatives : génération de contenu original, idéation, design, storytelling.
Creative Testing Benchmark (CTB)
Le nouveau benchmark de Tencent évalue :
1. Originalité
Les réponses sont-elles différentes des données d'entraînement ? Le modèle peut-il générer du contenu vraiment nouveau ?
2. Cohérence créative
Les créations sont-elles cohérentes sur la durée ? Le modèle maintient-il un style, un ton, une direction ?
3. Adaptabilité
Le modèle peut-il adapter son style créatif selon les contraintes ? Peut-il être original dans différents domaines ?
4. Valeur pratique
Les créations sont-elles utilisables en production ? Qualité vs simple originalité.
Résultats Préliminaires
| Modèle | Score CTB | Originalité | Cohérence |
|---|---|---|---|
| Claude 3.5 Sonnet | 78.3 | 82.1 | 74.5 |
| GPT-4o | 75.9 | 71.2 | 80.6 |
| Hunyuan (Tencent) | 73.4 | 76.8 | 70.0 |
| Gemini 1.5 Pro | 72.1 | 69.4 | 74.8 |
Note : Ces résultats sont préliminaires et le benchmark est encore en développement.
Implications pour le Développement
Pour les développeurs
- Nouveau critère pour choisir un modèle selon le use case
- Les tâches créatives nécessitent des modèles optimisés différemment
- Fine-tuning pour la créativité vs précision : trade-offs à considérer
Pour les entreprises
- Génération de contenu marketing : CTB pertinent
- Chatbots support : benchmarks classiques plus importants
- Design et création : combiner CTB + évaluation humaine
Notre Avis
Ce benchmark répond à un vrai besoin. Beaucoup de nos clients utilisent l'IA pour des tâches créatives (copywriting, idéation, design) et les benchmarks classiques ne reflétaient pas la performance réelle.
Attendons de voir si ce benchmark sera adopté par la communauté et s'il résistera à l'épreuve du gaming (optimisation artificielle des scores).
Besoin d'intégrer l'IA créative dans vos produits ? Découvrez nos services IA.