Recherche

Contactez-nous

Modèles de langage de grande taille et développement d'évaluations

Published on janvier 20,2023

Par Charles Foster et Jesse Hamer

Introduction

Depuis 2021, chez Finetune, nous avons vu le potentiel des Grands Modèles de Langage (LLMs) pour transformer la manière dont les professionnels de l'éducation et de l'évaluation travaillent. Le rythme dramatique des progrès dans ce domaine a signifié que des concepts peuvent passer d'un jouet de recherche une semaine, à un produit viral la suivante.

Il n'était donc pas surprenant de voir à quel point la réponse à ChatGPT était enthousiaste : lors d'une démonstration, tout le monde a compris que nous étions sur le seuil de quelque chose de grand. Étant donné l'excitation et l'incertitude présentes, on pourrait se demander : comment Finetune Generate, protégé par un brevet, s'intègre-t-il dans ce paysage ? Si je pouvais simplement demander à un chatbot générique de faire mon écriture à ma place, pourquoi aurais-je besoin de quelque chose d'autre ?

Nous aimons penser aux Grands Modèles de Langage comme à des modèles de base : des systèmes d'IA dont l'apprentissage étendu et diversifié leur permet d'agir comme la pierre angulaire d'une large gamme de cas d'utilisation. Quelques organisations, dont Anthropic, EleutherAI et OpenAI (le développeur de ChatGPT), entraînent ces modèles géants et les rendent disponibles pour que d'autres puissent les utiliser. Mais les modèles eux-mêmes ne sont que la couche de base : ils ont beaucoup plus de potentiel lorsqu'ils sont intégrés dans un système plus vaste, adapté à une application spécifique. Tout comme d'autres technologies à usage général telles que le Web, il peut falloir toute une génération de chercheurs et d'entrepreneurs construisant des systèmes par-dessus, pour qu'ils réalisent leur potentiel. Dans une interview avec Ezra Klein, le PDG d'OpenAI, Sam Altman, a exprimé un sentiment similaire :

Ce que je pense, c'est que nous ne sommes pas les meilleurs au monde pour cela, ni que nous voulons vraiment détourner notre attention [de cela], ce sont tous les merveilleux produits qui seront construits sur [les grands modèles de langage]. Et donc nous pensons à notre rôle comme à celui de trouver comment construire les systèmes d'IA les plus performants au monde et ensuite les rendre disponibles à quiconque suit nos règles pour construire tous ces systèmes par-dessus.
Altman, 2023

En combinant les LLMs avec des technologies plus traditionnelles comme les bases de connaissances et les interfaces avec un humain dans la boucle, nous pouvons créer des piles technologiques matures, ou applications génératives, qui nous permettent de libérer les capacités des LLMs pour créer des outils intelligents dans toutes sortes de domaines d'application. Generate et ChatGPT sont deux exemples précoces de cela.

Avec ce cadre en tête, comparons ChatGPT et Finetune Generate en tant qu'applications génératives, toutes deux basées sur GPT-3, du point de vue du développement d'items.

Objectifs de conception

ChatGPT et Finetune Generate sont tous deux destinés à fournir une interface plus intuitive pour que les utilisateurs interagissent avec des modèles génératifs comme GPT-3. Au-delà de cela, les deux applications sont assez différentes. OpenAI a pour mission de construire des systèmes d'IA sûrs et à usage général pour tous, et a conçu ChatGPT pour donner au grand public un aperçu de ce que les modèles de langage peuvent faire avec le langage naturel, et pour servir de bac à sable aux créateurs pour tester de nouvelles idées.

Chez Finetune, bien que nous collaborions avec la communauté de recherche plus large autour des innovations liées aux modèles de langage (voir notre collaboration avec OpenAI sur les améliorations de la recherche sémantique), notre objectif avec Generate n'était pas principalement de construire de nouveaux systèmes à usage général, mais plutôt de créer le meilleur outil possible pour l'écriture d'items assistée par IA. C'est pourquoi Generate est construit spécifiquement en tenant compte des rédacteurs d'items, autour de leurs meilleures pratiques, de leur langage et de leurs flux de travail. Toutes nos contraintes de conception étaient basées sur l'engagement avec une grande variété de premiers utilisateurs. Chaque modèle Generate que nous construisons est conçu pour refléter la structure unique de chaque évaluation, et donne à l'utilisateur les contrôles spécifiques nécessaires pour leur tâche. De plus, des équipes entières de rédacteurs d'items peuvent collaborer au développement d'items en utilisant Generate, avec une fonctionnalité intégrée permettant la gestion des autorisations et l'export structuré dans des formats comme le QTI.

Spécificité

Les grands modèles de langage passent par une phase d'entraînement initiale appelée préentraînement, où, lors d'une longue session, ils apprennent de millions de pages du web, de livres et d'autres sources. En raison du coût élevé du calcul pour apprendre de ces entrées, leur connaissance est généralement fixée par la suite. Étant donné qu'il s'agit d'une fine interface de dialogue au-dessus de GPT-3, ChatGPT a également une base de connaissances fixe qui ne peut pas être modifiée. Si, par exemple, un technicien avait besoin d'aide concernant un système propriétaire, un tel modèle ne serait probablement pas utile pour lui, car le modèle n'a aucun moyen d'apprendre de nouveaux sujets.

Les partenaires de Finetune vont des écoles K-12 à l'enseignement supérieur en passant par la délivrance de licences et de certifications, et couvrent une grande variété de domaines.

En tant que tel, il est essentiel pour nous que les modèles que nous construisons pour eux apprennent de leur contenu unique - même si ce contenu est hautement spécialisé ou nouveau - et doivent être actualisables avec de nouveaux matériaux dès qu'ils deviennent disponibles.

Pour rendre cela possible, notre équipe de R&D en IA a affiné nos propres méthodes pour intégrer efficacement de nouvelles connaissances dans les modèles de langage et pour les cibler selon les directives spécifiques d'une évaluation. De plus, Generate apprend dynamiquement au fil du temps pour mieux cibler les items en fonction du contenu et du style spécifiques des tâches de chaque client. Au cours de cette année, nous prévoyons de déployer plusieurs autres fonctionnalités qui continueront à améliorer la contrôlabilité et l'adaptabilité de nos modèles, allant du ciblage de phrases clés à un contrôle précis sur la complexité cognitive et au-delà.

Sécurité

En tant que démonstration expérimentale, ChatGPT est destiné à recueillir des commentaires sur la manière dont les gens interagissent avec les modèles de langage, afin qu'OpenAI puisse améliorer la technologie fondamentale qui sous-tend ses API. Pour cette raison, lorsque les utilisateurs parlent avec ChatGPT, ces interactions sont stockées et peuvent faire partie des ensembles de données d'entraînement futurs, pour aider à entraîner la prochaine génération de modèles. Cela signifie que si vous développez un item d'évaluation avec ChatGPT, les modèles futurs peuvent en avoir connaissance ou l'avoir mémorisé, exposant potentiellement vos items et votre style d'item de manière inattendue, risquant leur sécurité.

La sécurité est une préoccupation clé dans le développement d'items.

Generate garde les items sécurisés, cloisonnés, chaque client n'accédant qu'à ses propres modèles.

Même au sein d'un seul client, les utilisateurs peuvent être restreints à n'accéder qu'à des items générés spécifiques. Avec Generate, les clients sont toujours les propriétaires de tous les items qu'ils produisent, que ce soit en essayant un modèle initial ou en ayant adopté l'outil à grande échelle.

Confiance & Support

Une grande partie de ce qui rend difficile l'utilisation productive d'un LLM est qu'il est fondamentalement aléatoire : posez-lui la même question deux fois et il vous donnera deux réponses différentes. Cela va à l'encontre de ce que nous attendons généralement de nos outils : nous comptons sur eux pour être fiables. Cela conduit à l'un des problèmes les plus persistants avec ChatGPT et d'autres outils LLM, à savoir qu'il est difficile de faire confiance à leurs résultats lorsque vous ne savez pas pourquoi ces résultats ont été choisis. Était-ce basé sur des faits que le modèle se rappelle, ou sur des mensonges que le modèle a inventés, ou même plagiés d'une source invisible ?

Les normes de confiance au sein de l'éducation et de l'évaluation sont élevées, bien plus élevées que pour les chatbots occasionnels. Les clients veulent savoir que les items qu'ils produisent via Generate sont vraiment nouveaux, basés sur leurs propres matériaux et valides.

Nos équipes de mesure et de R&D en IA travaillent avec chaque client pour créer des modèles adaptés à leurs besoins, et pour intégrer leurs retours dans les améliorations continues des modèles.

Nous réalisons également des vérifications manuelles et automatisées pour vérifier que les suggestions faites par Generate correspondent aux spécifications du client. Nous allons bientôt déployer une nouvelle fonctionnalité qui permettra aux utilisateurs de facilement croiser les items générés avec des matériaux de référence, afin qu'ils puissent avoir une assurance immédiate que les items qu'ils produisent sont fondés sur des faits.

Conclusion

Nous sommes à un moment passionnant où des centaines d'applications génératives seront construites, toutes poursuivant différents cas d'utilisation potentiels pour les LLMs. En tant que personne qui se soucie profondément de la qualité de l'évaluation dans l'éducation, la certification et la délivrance de licences, nous vous recommandons de garder toujours les questions suivantes à l'esprit :

Pour qui cette application est-elle conçue ?
Le modèle que cette application utilise est-il spécifiquement entraîné pour ce dont mon organisation a besoin, y compris nos besoins de sécurité ?
Comment les données que je fournis seront-elles utilisées ?
Veux-je investir le temps et l'argent pour rendre un modèle brut à usage général utilisable (par exemple, l'interface utilisateur appropriée) et dignement de confiance par nos experts en la matière (SMEs) pour être intégré dans notre flux de travail et notre cas d'utilisation à enjeux élevés ?

Nous sommes encore aux premiers jours de cette technologie profondément impressionnante, mais déjà l'étendue des capacités que les applications génératives permettront à travers de multiples industries devient évidente. Il en va de même pour les voix de prudence exprimées par Gary Marcus de NYU et d'autres.

Chez Finetune, nous sommes très enthousiasmés de continuer à présenter plus de fonctionnalités au cours de notre troisième année qui rendront Generate encore plus performant, encore plus fiable, et encore plus utile à travers tout le paysage de l'apprentissage et de l'évaluation.

Mis à jour le 29 avril 2025

Trouvez votre examen

Avant Votre Examen

Accommodements

Le jour de l'examen

Après votre examen

Foire aux questions

Fermetures des centres de test

Développement de l'évaluation

Livraison mondiale

Expérience candidat

Croissance du programme

Sécurité

Affiner l'IA

Ressources pour les clients

Développement d'examens IA

Catalogage de contenu AI

Développement des compétences en réalité virtuelle

Livraison en centre

Livraison à distance

Préparation à l'Expérience

Bibliothèque de contenu

Compétence linguistique

Développement d'évaluation de l'IA

Alignement du contenu IA

Plateforme d'évaluation

Aperçus des données

Portefeuille PL

Solutions de soutien en éducation

Technologie

Soins de santé mondiaux

Finance

Gouvernement

Associations

Éducation

Consommateur

Histoires de réussite

Guides et livres blancs

Webinaires

Événements

Blog

Recherche

Leadership

Bureaux mondiaux

Examens Prometric

Salle de presse

Carrières

Plan de réduction des émissions de carbone

Contactez-nous

Modèles de langage de grande taille et développement d'évaluations

Introduction

Objectifs de conception

Spécificité

Sécurité

Confiance & Support

Conclusion