C'est une première et c'est une innovation 100% belge portée par l'université de Namur. L' "AI Score" peut vous aider à comparer objectivement les performances de ChatGPT, Copilot ou encore NotebookLM.
À l'ère de l'intelligence artificielle, qui ne s'est jamais demandé à quel chatbot ou agent IA se fier ? Peut-on réellement faire confiance aux réponses fournies par l'IA et comment faire le tri dans la pléthore d'outils existants tels que ChatGPT, Copilot, Grok, Mistral, ou encore NotebookLM ?
C'est pour répondre à ces questions que l'UNamur a développé un nouvel outil scientifique inédit : l'AI Score.
Développé par une équipe pluridisciplinaire de chercheurs de l'université de Namur, il permet de mesurer de manière objective, reproductive et transparente la fiabilité des chatbots éducatifs.
C'est en l'occurence une belle avancée , car jusqu'ici rien ne permettait aux usagers de ces chatbots de connaître leur fiabilité.
Pour Michaël Lobet, un des auteurs de la recherche :
L' "AI Score", c'est au chatbot ce que le compteur de vitesse fut à l'automobile !
L'arrivée de l'automobile au début du XXème siècle a bouleversé les usages... mais c'est l'invention du compteur de vitesse qui a permis d'en faire un outil maîtrisé et fiable. Aujourd'hui les chatbots pédagogisques et autres chatbots présents dans des entreprises en général, sont à un stade similaire : puissants, enthousiasmants, mais sans instruments fiables de contrôle. L'AI Score propose d'être ce compteur.
Ainsi, de la même manière que le Nutriscore, l'Écoscore ou encore le certificat PEB aident les citoyens à faire des choix éclairés, l'AI Score va offrir une lecture simple et immédiate du niveau de confiance que l'on peut accorder à un chatbot.
À l'heure où la confiance dans les IA génératives devient un enjeu sociétal, l'AI Score guide les enseignants et les sociétés dans leurs choix d'outil à mettre dans les mains de leurs étudiants ou clients.
Une méthode scientifique et rigoureuse
Pour développer ce nouvel outil, les chercheurs de l'UNamur ont évalué les chatbots sur 4 dimensions essentielles :
- Performance initiale : l'IA répond-elle juste du premier coup ?
- Robustesse : maintient-elle sa réponse quand on la questionne ?
- Capacité d'auto-correction : reconnaît-elle et corrige-t-elle ses erreurs ?
- Manque de fiabilité : se contredit-elle ou perd-elle le fil de la conversation ?
Chaque chatbot obtient ensuite un score global et une lettre, dans le même esprit que pour les Nutriscores en alimentation.
L'AI Score est disponible gratuitement pour le grand public, les enseignants, les journalistes, les institutions et toute personne souhaitant comparer objectivement les performances des chatbots.
Vous pouvez tester dès à présent en suivant ce lien : https://aiscore.academy
Sur le même sujet
Recommandations
Augmentation du minerval: les étudiants en colère!
Entrée Libre "Le journal de classe d'un prof en prison" de Jean-Pierre Goukens
La formation ReBOND : un quadrimestre pour réussir sa réorientation
Storyboard : regards croisés de vidéastes namurois