Store Sprogmodeller og Vurderingsudvikling

Published on januar 20,2023

Shutterstock 2520071063

Af Charles Foster og Jesse Hamer

Introduktion

Siden 2021 har vi hos Finetune set potentialet i store sprogmodeller (LLMs) til at transformere måden, professionelle inden for uddannelse og vurdering arbejder på. Den dramatiske udviklingstakt på dette område har betydet, at koncepter kan gå fra at være et forskningslegetøj den ene uge til et viralt produkt den næste.

Det var derfor ikke overraskende at se, hvor begejstret reaktionen på ChatGPT var: i en demo forstod alle, at vi står på tærsklen til noget stort. Givet den nuværende begejstring og usikkerhed, kan man undre sig: hvordan passer den patenterede Finetune Generate ind i dette landskab? Hvis jeg blot kunne bede en generisk chatbot om at skrive for mig, hvorfor skulle jeg så have brug for noget andet?

Vi kan lide at betragte store sprogmodeller som grundmodeller: AI-systemer, hvis omfattende og forskellige træning gør dem i stand til at fungere som fundamentet for en bred vifte af anvendelsestilfælde. Et par organisationer, herunder Anthropic, EleutherAI og OpenAI (udvikleren af ChatGPT), træner disse kæmpe modeller og gør dem tilgængelige for andre. Men modellerne i sig selv er blot basislaget: de har meget større potentiale, når de væves ind i et større system, skræddersyet til en specifik anvendelse. Ligesom andre generelle teknologier som internettet, kan det tage en hel generation af forskere og iværksættere at bygge systemer oven på det, før det realiserer sit potentiale. I et interview med Ezra Klein udtrykte OpenAI's CEO Sam Altman en lignende følelse:

Hvad jeg mener, vi ikke er de bedste i verden til, og som vi ikke rigtig ønsker at aflede vores opmærksomhed [fra], er alle de vidunderlige produkter, der vil blive bygget oven på [store sprogmodeller]. Og derfor tænker vi på vores rolle som at finde ud af, hvordan man bygger de mest kapable AI-systemer i verden og derefter gøre dem tilgængelige for alle, der følger vores regler for at bygge alle disse systemer oven på dem.

Altman, 2023

Ved at kombinere LLM'er med mere traditionelle teknologier som vidensbaser og menneske-i-sløjfen-grænseflader, kan vi skabe modne teknologistakke eller generative applikationer, der gør det muligt for os at frigøre LLM'ernes kapabiliteter til at skabe smarte værktøjer inden for alle slags anvendelsesområder. Generate og ChatGPT er to tidlige eksempler på disse.

Med denne ramme i tankerne, lad os sammenligne ChatGPT og Finetune Generate som generative applikationer, der begge er bygget på GPT-3, ud fra udviklingen af opgaver.

Designmål

Både ChatGPT og Finetune Generate er designet til at give en mere intuitiv grænseflade for brugerne til at interagere med generative modeller som GPT-3. Udover det er de to applikationer ret forskellige. OpenAI har en mission om at bygge sikre, generelle AI-systemer til alle og har bygget ChatGPT for at give offentligheden en smagsprøve på, hvad sprogmodeller er i stand til at gøre med naturligt sprog, og for at fungere som en sandkasse for udviklere til at afprøve nye ideer.

Hos Finetune, selvom vi engagerer os med det bredere forskningssamfund omkring innovationer inden for sprogmodeller (se vores samarbejde med OpenAI om forbedringer af semantisk søgning), var vores mål med Generate ikke primært at bygge nye generelle systemer, men snarere at bygge det bedste værktøj muligt til AI-assisteret opgaveforfatning. Det er derfor, Generate er bygget specifikt med opgaveforfattere i tankerne, omkring deres bedste praksis, sprog og arbejdsgange. Alle vores designbegrænsninger var baseret på engagement med en bred vifte af tidlige adoptører. Hver Generate-model, vi bygger, er designet til at afspejle den unikke struktur af hver vurdering og giver brugeren de specifikke kontroller, der er nødvendige for deres opgave. Desuden kan hele teams af opgaveforfattere samarbejde om at udvikle opgaver ved hjælp af Generate, med indbygget funktionalitet til at tillade tilladelsesstyring og struktureret eksport til formater som QTI.

Specifikhed

Store sprogmodeller gennemgår en indledende træningsfase kaldet prætræning, hvor de i en lang session lærer fra millioner af sider fra internettet, bøger og andre kilder. På grund af hvor dyrt det er at lære fra disse input, er deres viden typisk fastlåst efterfølgende. Da det er en tynd dialog-wrapper oven på GPT-3, har ChatGPT ligesom en fast videnbase, der ikke kan ændres. Hvis en tekniker for eksempel ønskede hjælp vedrørende et proprietært system, ville en sådan model sandsynligvis ikke være til hjælp for dem, fordi modellen ikke har nogen måde at lære nyt emne indhold på.

Finetunes partnere spænder fra K-12 til videregående uddannelse til licens- og certificering og dækker en bred vifte af domæner.

Derfor er det kritisk for os, at de modeller, vi bygger for dem, skal lære fra deres unikke indhold—selv hvis dette indhold er højt specialiseret eller nyt—og skal være opdaterbare med nyt materiale, efterhånden som det bliver tilgængeligt.

For at gøre dette muligt har vores AI F&U-team raffineret vores egne metoder til effektivt at integrere ny viden i sprogmodeller og målrette dem mod de specifikke retningslinjer for en vurdering. Desuden lærer Generate dynamisk over tid for bedre at målrette opgaver mod det specifikke indhold og den stil, som hver kundes opgaver har. I løbet af dette år planlægger vi at rulle flere funktioner ud, der vil fortsætte med at forbedre kontrolmulighederne og tilpasningen af vores modeller, fra nøglefphrase-målretning til finjusteret kontrol over kognitiv kompleksitet og videre.

Sikkerhed

Som en eksperimentel demo er ChatGPT designet til at indhente feedback om, hvordan folk interagerer med sprogmodeller, så OpenAI kan forbedre den grundlæggende teknologi, der understøtter dens API'er. På grund af dette, når brugere taler med ChatGPT, gemmes disse interaktioner og kan ende i fremtidige træningsdatasæt for at hjælpe med at træne næste generation af modeller. Det betyder, at hvis du udvikler en vurderingsopgave med ChatGPT, kan fremtidige modeller vide om den eller have memoriseret den, hvilket potentielt eksponerer dine opgaver og opgave stil på måder, du ikke havde til hensigt, og dermed risikere deres sikkerhed.

Sikkerhed er en central bekymring inden for opgaveudvikling.

Generate holder opgaver sikrede, adskilt, med hver kunde, der kun har adgang til deres egne modeller.

Selv inden for en enkelt kunde kan brugere være begrænset til kun at få adgang til specifikke genererede opgaver. Med Generate er kunder altid ejere af de opgaver, de producerer, uanset om de blot prøver en indledende model eller har adopteret værktøjet i stor skala.

Tillid og support

Meget af det, der gør det vanskeligt at bruge en LLM produktivt, er, at den er fundamentalt tilfældig: spørg den det samme spørgsmål to gange, og den vil give dig to forskellige svar. Dette står i kontrast til, hvad vi normalt forventer fra vores værktøjer: vi regner med, at de er pålidelige. Dette fører til et af de mest vedholdende problemer med ChatGPT og med andre LLM-værktøjer, nemlig at det er svært at stole på deres resultater, når du ikke ved hvorfor de resultater blev valgt. Var det baseret på fakta, som modellen husker, eller usandheder, som modellen opfandt, eller endda plagieret fra en uset kilde?

Standarderne for tillid inden for uddannelse og vurdering er høje, langt højere end for afslappede chatbots. Kunder ønsker at vide, at de opgaver, de producerer gennem Generate, er virkelig nye, er baseret på deres egne materialer, og er valide.

Vores måle- og AI F&U-teams arbejder med hver kunde for at skabe modeller skræddersyet til deres behov og for at inkorporere deres feedback i løbende modelforbedringer.

Vi udfører også manuelle og automatiserede kontroller for at verificere, at de forslag, Generate giver, matcher kundens specifikationer. Vi vil snart rulle en ny funktion ud, der vil gøre det muligt for brugere nemt at krydsreferere genererede opgaver med reference-materialer, så de kan få øjeblikkelig sikkerhed for, at de opgaver, de producerer, er baseret på fakta.

Konklusion

Dette er en spændende tid, hvor hundredvis af generative applikationer vil blive udviklet, som alle forfølger forskellige potentielle anvendelsestilfælde for LLM'er. Når du udforsker dem som en, der bekymrer sig dybt om kvaliteten af vurdering i uddannelse, certificering og licens, anbefaler vi altid at holde følgende spørgsmål i tankerne:

  • Hvem er denne applikation designet til?
  • Er modellen, som denne applikation bruger, trænet specifikt til, hvad min organisation har brug for, inklusive vores sikkerhedsbehov?
  • Hvordan vil de data, jeg leverer, blive brugt?
  • Vil jeg investere tid og penge i at gøre en rå, generel model brugbar (f.eks. den passende brugergrænseflade) og betroet af vores fagområdespecialister (SME'er) til at blive integreret i vores arbejdsflow og højrisiko anvendelsestilfælde?

Vi er stadig i de tidlige dage af denne dybt imponerende teknologi, men allerede omfanget af kapabiliteter, som generative applikationer vil muliggøre på tværs af flere industrier, bliver tydeligt. Det gør også de advarselsstemmer, der udtrykkes af Gary Marcus fra NYU og andre.

Hos Finetune er vi meget begejstrede for at fortsætte med at vise flere funktioner i vores tredje år, der vil gøre Generate endda mere performant, endda mere pålidelig, og endda mere hjælpsom på tværs af hele lærings- og vurderingslandskabet.

Opdateret 29. april 2025