Door Charles Foster en Jesse Hamer
Inleiding
Sinds 2021 hebben we bij Finetune het potentieel van grote taalmodellen (LLM's) gezien voor het transformeren van de manier waarop professionals in onderwijs en beoordeling werken. Het dramatische tempo van vooruitgang op dit gebied heeft ertoe geleid dat concepten de ene week van een onderzoeks speeltje naar een viral product de volgende week kunnen gaan.
Het was dan ook geen verrassing om te zien hoe enthousiast de reactie op ChatGPT was: in één demo begreep iedereen dat we op de drempel staan van iets groots. Gezien de huidige opwinding en onzekerheid zou men zich kunnen afvragen: hoe past gepatenteerde Finetune Generate in dit landschap? Als ik gewoon een generieke chatbot kan vragen om mijn teksten voor me te schrijven, waarom zou ik dan nog iets anders nodig hebben?
We beschouwen grote taalmodellen graag als fundamentale modellen: AI-systemen waarvan de uitgebreide en diverse training hen in staat stelt als het fundament te fungeren voor een breed scala aan gebruikstoepassingen. Enkele organisaties, waaronder Anthropic, EleutherAI en OpenAI (de ontwikkelaar van ChatGPT), trainen deze enorme modellen en stellen ze beschikbaar voor anderen om te gebruiken. Maar de modellen zelf zijn slechts de basislaag: ze hebben veel groter potentieel wanneer ze in een groter systeem worden geweven, afgestemd op een specifieke toepassing. Net als andere technologieën voor algemeen gebruik, zoals het web, kan het een hele generatie onderzoekers en ondernemers kosten om systemen bovenop te bouwen, voordat het zijn potentieel kan realiseren. In een interview met Ezra Klein sprak OpenAI CEO Sam Altman een vergelijkbare boodschap uit:
Wat ik denk dat we niet de beste ter wereld in zijn, noch willen we onze aandacht daar echt vanaf leiden, zijn al die geweldige producten die bovenop [grote taalmodellen] zullen worden gebouwd. En dus denken we na over onze rol als het gaat om het uitzoeken hoe we de meest capabele A.I.-systemen in de wereld kunnen bouwen en deze vervolgens beschikbaar kunnen stellen voor iedereen die onze regels volgt om al deze systemen op hen te bouwen.
Altman, 2023
Door LLM's te combineren met meer traditionele technologieën zoals kennisbanken en interfaces met menselijke inbreng, kunnen we volwassen technologie-stacks of generatieve applicaties creëren, die ons in staat stellen de mogelijkheden van LLM's te benutten om slimme tools te creëren in allerlei toepassingsgebieden. Generate en ChatGPT zijn twee vroege voorbeelden hiervan.
Met dit kader in gedachten, laten we ChatGPT en Finetune Generate vergelijken als generatieve applicaties die beide zijn gebouwd op GPT-3, vanuit het perspectief van itemontwikkeling.
Ontwerpdoelen
Zowel ChatGPT als Finetune Generate zijn bedoeld om een intuïtieve interface te bieden voor gebruikers om te communiceren met generatieve modellen zoals GPT-3. Verder verschillen de twee applicaties behoorlijk. OpenAI heeft als missie veilige, algemeen toepasbare AI-systemen voor iedereen te bouwen, en heeft ChatGPT ontwikkeld om het grote publiek een voorproefje te geven van wat taalmodellen in staat zijn te doen met natuurlijke taal, en om te fungeren als een sandbox voor bouwers om nieuwe ideeën uit te proberen.
Bij Finetune, hoewel we wel samenwerken met de bredere onderzoekscommunity rond innovaties in taalmodellen (zie onze samenwerking met OpenAI voor verbeteringen aan semantische zoekfuncties), was ons doel met Generate niet primair om nieuwe algemeen toepasbare systemen te bouwen, maar eerder om de best mogelijke tool voor AI-ondersteunde itemwriting te creëren. Daarom is Generate specifiek gebouwd met item schrijvers in gedachten, rondom hun beste praktijken, taal en workflows. Al onze ontwerpeisen waren gebaseerd op interactie met een breed scala aan vroege gebruikers. Elk Generate-model dat we bouwen, is ontworpen om de unieke structuur van elke beoordeling weer te geven en geeft de gebruiker de specifieke controles die nodig zijn voor hun taak. Bovendien kunnen hele teams van item schrijvers samenwerken aan het ontwikkelen van items met behulp van Generate, met ingebouwde functionaliteit voor toestemmingbeheer en gestructureerde export naar formaten zoals QTI.
Specifiteit
Grote taalmodellen doorlopen een initiële trainingsfase die pretraining wordt genoemd, waarin ze gedurende één lange sessie leren van miljoenen pagina's van het web, boeken en andere bronnen. Vanwege de hoge kosten van de berekeningen die nodig zijn om van die invoer te leren, is hun kennis daarna meestal vastgelegd. Aangezien het een dunne dialoogwrapper bovenop GPT-3 is, heeft ChatGPT ook een vaste kennisbasis die niet kan worden aangepast. Als bijvoorbeeld een technicus hulp wilde met een bepaald propriëtair systeem, zou zo'n model waarschijnlijk niet nuttig voor hen zijn, omdat het model geen manier heeft om nieuwe onderwerpen te leren.
De partners van Finetune lopen uiteen van K-12 tot hoger onderwijs tot licentieverlening en certificering, en bestrijken een breed scala aan domeinen.
Daarom is het voor ons van cruciaal belang dat de modellen die we voor hen bouwen leren van hun unieke inhoud—zelfs als die inhoud zeer gespecialiseerd of nieuw is—en dat ze bijgewerkt kunnen worden met nieuw materiaal zodra dat beschikbaar komt.
Om dit mogelijk te maken, heeft ons AI R&D-team onze eigen methoden verfijnd om efficiënt nieuwe kennis in taalmodellen op te nemen en deze af te stemmen op de specifieke richtlijnen van een beoordeling. Bovendien leert Generate dynamisch in de loop van de tijd om beter items te richten op de specifieke inhoud en stijl van de taken van elke klant. Gedurende dit jaar zijn we van plan verschillende nieuwe functies uit te rollen die de controleerbaarheid en aanpasbaarheid van onze modellen verder zullen verbeteren, van targeting van sleutelzinnen tot fijne controle over cognitieve complexiteit en meer.
Beveiliging
Als een experimentele demo is ChatGPT bedoeld om feedback te krijgen over hoe mensen interageren met taalmodellen, zodat OpenAI de fundamentele technologie achter zijn API's kan verbeteren. Daarom worden de interacties van gebruikers met ChatGPT opgeslagen en kunnen ze in toekomstige trainingsdatasets terechtkomen om de volgende generatie modellen te helpen trainen. Dit betekent dat als je een beoordelingselement met ChatGPT ontwikkelt, toekomstige modellen daarover kunnen weten of het uit hun hoofd hebben geleerd, wat je items en itemstijl op manieren kan blootstellen die je niet bedoelde, met het risico hun beveiliging.
Beveiliging is een belangrijke zorg binnen itemontwikkeling.
Generate houdt items beveiligd, afgeschermd, waarbij elke klant alleen toegang heeft tot hun modellen.
Zelfs binnen een enkele klant kunnen gebruikers beperkt worden tot toegang tot specifieke gegenereerde items. Met Generate zijn klanten altijd de eigenaars van de items die ze produceren, ongeacht of ze gewoon een initieel model uitproberen of het hulpmiddel op grote schaal hebben aangenomen.
Vertrouwen & Ondersteuning
Veel van wat het productief gebruik van een LLM moeilijk maakt, is dat het fundamenteel willekeurig is: stel dezelfde vraag twee keer en je krijgt twee verschillende antwoorden. Dit staat haaks op wat we gewoonlijk van onze hulpmiddelen verwachten: we rekenen erop dat ze betrouwbaar zijn. Dit leidt tot een van de meest hardnekkige problemen met ChatGPT en andere LLM-hulpmiddelen, namelijk dat het moeilijk is om de output te vertrouwen wanneer je niet weet waarom die output is gekozen. Was het gebaseerd op feiten die het model zich herinnert, of op onwaarheden die het model heeft verzonnen, of zelfs plagiaat van een onzichtbare bron?
De normen voor vertrouwen binnen onderwijs en beoordeling zijn hoog, veel hoger dan voor casual chatbots. Klanten willen weten dat items die ze produceren via Generate werkelijk nieuw zijn, gebaseerd op hun eigen materialen en geldig zijn.
Onze Measurement en AI R&D-teams werken met elke klant samen om modellen te creëren die zijn afgestemd op hun behoeften, en om hun feedback te integreren in de voortdurende modelverbeteringen.
We voeren ook handmatige en geautomatiseerde controles uit om te verifiëren dat de suggesties die Generate doet overeenkomen met de specificaties van de klant. We zullen binnenkort een nieuwe functie uitrollen waarmee gebruikers gemakkelijk gegenereerde items kunnen kruisverwijzen met referentiemateriaal, zodat ze onmiddellijke geruststelling kunnen krijgen dat de items die ze produceren feitelijk onderbouwd zijn.
Conclusie
Dit is een opwindende tijd waarin honderden generatieve applicaties zullen worden ontwikkeld, die allemaal verschillende potentiële gebruikstoepassingen voor LLM's nastreven. Terwijl je ze verkent als iemand die diep geeft om de kwaliteit van beoordeling in onderwijs, certificering en licentieverlening, raden we aan altijd de volgende vragen in gedachten te houden:
- Voor wie is deze applicatie ontworpen?
- Is het model dat deze applicatie gebruikt specifiek getraind voor wat mijn organisatie nodig heeft, inclusief onze beveiligingsbehoeften?
- Hoe zullen de gegevens die ik verstrek worden gebruikt?
- Wil ik de tijd en het geld investeren om een ruw algemeen model bruikbaar te maken (bijv. de juiste UI) en vertrouwd door onze vakexperts (SME's) om geïntegreerd te worden in onze workflow en toepassing met hoge inzet?
We bevinden ons nog in de vroege dagen van deze diep indrukwekkende technologie, maar de reikwijdte van de mogelijkheden die generatieve applicaties in verschillende sectoren zullen mogelijk maken, wordt al duidelijk. Ook de stemmen van voorzichtigheid, uitgesproken door Gary Marcus van NYU en anderen, worden steeds luider.
Bij Finetune zijn we zeer enthousiast om meer functies te blijven tonen in ons derde jaar die Generate nog presterender, nog betrouwbaarder en nog handiger zullen maken voor het gehele leer- en beoordelingslandschap.
Bijgewerkt op 29 april 2025