De Charles Foster și Jesse Hamer
Introducere
Începând cu 2021, la Finetune am observat potențialul modelelor lingvistice mari (LLM) de a transforma modul în care profesioniștii din educație și evaluare lucrează. Ritmul dramatic al progresului în acest domeniu a însemnat că conceptele pot trece de la a fi un instrument de cercetare într-o săptămână, la un produs viral în săptămâna următoare.
Prin urmare, nu a fost o surpriză să vedem cât de entuziast a fost răspunsul la ChatGPT: într-o demonstrație, toată lumea a înțeles că ne aflăm pe pragul a ceva mare. Având în vedere entuziasmul și incertitudinea actuale, s-ar putea întreba: cum se încadrează Finetune Generate, patentat, în acest peisaj? Dacă aș putea doar să cer unui chatbot generic să-mi facă scrierea, de ce aș mai avea nevoie de altceva?
Ne place să ne gândim la modelele lingvistice mari ca la modele fundamentale: sisteme AI a căror antrenare extinsă și diversificată le permite să acționeze ca baza pentru o gamă largă de cazuri de utilizare. Câteva organizații, inclusiv Anthropic, EleutherAI și OpenAI (dezvoltatorul ChatGPT), antrenează aceste modele gigante și le fac disponibile pentru alții. Dar modelele în sine sunt doar stratul de bază: ele au mult mai mult potențial atunci când sunt integrate într-un sistem mai mare, adaptat pentru o aplicație specifică. La fel ca alte tehnologii cu scop general, cum ar fi Web-ul, poate dura o întreagă generație de cercetători și antreprenori care să construiască sisteme pe baza acestuia pentru a-i realiza potențialul. Într-un interviu cu Ezra Klein, CEO-ul OpenAI, Sam Altman, a exprimat un sentiment similar:
Ceea ce cred că nu suntem cei mai buni în lume, nici nu dorim să ne distragem atenția [de la], sunt toate produsele minunate care vor fi construite pe baza [modelelor lingvistice mari]. Și astfel ne gândim la rolul nostru ca la a descoperi cum să construim cele mai capabile sisteme A.I. din lume și apoi să le facem disponibile oricui respectă regulile noastre pentru a construi toate aceste sisteme pe baza lor.
Altman, 2023
Prin combinarea LLM-urilor cu tehnologii mai tradiționale, cum ar fi bazele de cunoștințe și interfețele cu om în buclă, putem crea stive tehnologice mature sau aplicații generative, care ne permit să deblocăm capabilitățile LLM-urilor pentru a crea unelte inteligente în diverse domenii de aplicare. Generate și ChatGPT sunt două exemple timpurii ale acestora.
Având acest cadru în minte, să comparăm ChatGPT și Finetune Generate ca aplicații generative construite pe GPT-3, din perspectiva dezvoltării itemilor.
Obiectivele de design
Atât ChatGPT, cât și Finetune Generate sunt destinate să ofere o interfață mai intuitivă pentru utilizatori pentru a interacționa cu modele generative precum GPT-3. Dincolo de aceasta, cele două aplicații sunt destul de diferite. OpenAI are o misiune de a construi sisteme AI sigure, cu scop general, pentru toți și a construit ChatGPT pentru a oferi publicului larg o idee despre ce sunt capabile modelele lingvistice să facă cu limbajul natural și pentru a servi ca un sandbox pentru constructori să testeze idei noi.
La Finetune, deși interacționăm cu comunitatea mai largă de cercetare în jurul inovațiilor modelelor lingvistice (vezi colaborarea noastră cu OpenAI pentru îmbunătățiri în căutarea semantică), scopul nostru cu Generate nu a fost în principal acela de a construi noi sisteme cu scop general, ci mai degrabă de a construi cel mai bun instrument posibil pentru scrierea de itemi asistată de AI. De aceea, Generate este construit special având în vedere scriitorii de itemi, în jurul celor mai bune practici, limbaj și fluxuri de lucru ale acestora. Toate constrângerile noastre de design au fost bazate pe interacțiunea cu o varietate largă de adoptatori timpurii. Fiecare model Generate pe care îl construim este conceput pentru a reflecta structura unică a fiecărei evaluări și oferă utilizatorului controalele specifice necesare pentru sarcina lor. Mai mult, echipe întregi de scriitori de itemi pot colabora la dezvoltarea itemilor folosind Generate, cu funcționalitate încorporată pentru a permite gestionarea permisiunilor și exportul structurat în formate precum QTI.
Specificitate
Modelele lingvistice mari trec printr-o fază inițială de antrenare numită pretraining, unde, într-o sesiune lungă, învață din milioane de pagini de pe web, cărți și alte surse. Din cauza costului ridicat al calculului necesar pentru a învăța din acele date, cunoștințele lor sunt de obicei fixe ulterior. Deoarece este o interfață de dialog subțire deasupra GPT-3, ChatGPT are de asemenea o bază de cunoștințe fixă care nu poate fi modificată. Dacă, de exemplu, un tehnician ar dori ajutor în legătură cu un sistem proprietar, un astfel de model probabil nu le-ar fi de ajutor, deoarece modelul nu are modalități de a învăța subiecte noi.
Partenerii Finetune acoperă o gamă largă de domenii, de la K-12 la învățământul superior, licențiere și certificare.
Astfel, este esențial pentru noi ca modelele pe care le construim pentru ei să învețe din conținutul lor unic—chiar dacă acel conținut este foarte specializat sau nou—și să fie actualizabile cu materiale noi pe măsură ce devin disponibile.
Pentru a face acest lucru posibil, echipa noastră de R&D AI a rafinat metodele noastre pentru a incorpora eficient noi cunoștințe în modelele lingvistice și pentru a le adapta la liniile directoare specifice ale unei evaluări. Mai mult, Generate învață dinamic în timp pentru a viza mai bine itemii la conținutul și stilul specific al sarcinilor fiecărui client. Pe parcursul acestui an, plănuim să lansăm mai multe caracteristici care vor continua să îmbunătățească controlabilitatea și adaptabilitatea modelelor noastre, de la viza pe fraze cheie la controlul detaliat asupra complexității cognitive și nu numai.
Securitate
Ca o demonstrație experimentală, ChatGPT este menit să eliciteze feedback cu privire la modul în care oamenii interacționează cu modelele lingvistice, astfel încât OpenAI să poată îmbunătăți tehnologia fundamentală care susține API-urile sale. Din acest motiv, atunci când utilizatorii vorbesc cu ChatGPT, acele interacțiuni sunt stocate și pot ajunge în seturile de date pentru antrenare viitoare, pentru a ajuta la antrenarea generației următoare de modele. Asta înseamnă că, dacă dezvoltați un item de evaluare cu ChatGPT, modelele viitoare ar putea să știe despre el sau să-l fi memorat, expunându-vă itemii și stilul itemilor în moduri pe care nu le-ați intenționat, punând în pericol securitatea acestora.
Securitatea este o preocupare esențială în dezvoltarea itemilor.
Generate păstrează itemii securizați, izolați, cu fiecare client având acces doar la modelele lor.
Chiar și în cadrul unui singur client, utilizatorii pot fi restricționați să acceseze doar itemii generați specifici. Cu Generate, clienții sunt mereu proprietarii oricăror itemi pe care îi produc, indiferent dacă doar încearcă un model inițial sau au adoptat instrumentul la scară largă.
Încredere și suport
Mult din ceea ce face utilizarea productivă a unui LLM dificilă este că este fundamental aleatorie: întrebați-l aceeași întrebare de două ori și vă va oferi două răspunsuri diferite. Acest lucru contravine ceea ce ne așteptăm de obicei de la uneltele noastre: ne bazăm pe ele să fie fiabile. Aceasta duce la una dintre cele mai persistente probleme cu ChatGPT și cu alte unelte LLM, și anume că este greu să ai încredere în rezultatele lor atunci când nu știi de ce acele rezultate au fost alese. A fost bazat pe fapte pe care modelul le reamintește, sau pe minciuni pe care modelul le-a inventat, sau chiar plagiat dintr-o sursă nevăzută?
Standarde pentru încredere în educație și evaluare sunt ridicate, mult mai ridicate decât pentru chatbot-uri casuale. Clienții doresc să știe că itemii pe care îi produc prin Generate sunt cu adevărat noi, se bazează pe materialele lor și sunt validați.
Echipele noastre de Măsurare și R&D AI colaborează cu fiecare client pentru a crea modele adaptate nevoilor lor și pentru a incorpora feedback-ul lor în îmbunătățirile continue ale modelului.
De asemenea, efectuăm verificări manuale și automate pentru a verifica că sugestiile Generate se potrivesc specificațiilor clientului. În curând, vom lansa o nouă caracteristică care va permite utilizatorilor să verifice cu ușurință itemii generați cu materialele de referință, astfel încât să poată avea asigurarea imediată că itemii pe care îi produc sunt fundamentați în fapte.
Concluzie
Aceasta este o perioadă interesantă în care sute de aplicații generative vor fi dezvoltate, toate urmărind diferite cazuri de utilizare potențiale pentru LLM-uri. Pe măsură ce le explorați ca cineva care se îngrijorează profund de calitatea evaluării în educație, certificare și licențiere, vă recomandăm să păstrați mereu în minte următoarele întrebări:
- Pentru cine este destinat această aplicație?
- Este modelul folosit de această aplicație antrenat specific pentru ceea ce are nevoie organizația mea, inclusiv nevoile noastre de securitate?
- Cum vor fi utilizate datele pe care le furnizez?
- Vreau să investesc timp și bani pentru a face un model brut cu scop general utilizabil (de exemplu, UI-ul corespunzător) și de încredere pentru experții noștri în domeniu (SMEs) pentru a fi integrat în fluxul nostru de lucru și în cazul nostru de utilizare cu mare risc?
Încă suntem în primele zile ale acestei tehnologii profund impresionante, dar deja amploarea capabilităților pe care aplicațiile generative le vor permite în diverse industrii devine evidentă. La fel de evidente sunt și vocile de prudență exprimate de Gary Marcus de la NYU și alții.
La Finetune suntem foarte entuziasmați să continuăm să prezentăm mai multe caracteristici în al treilea nostru an care vor face Generate chiar și mai performant, chiar și mai fiabil și chiar și mai util în întreaga peisaj de învățare și evaluare.
Actualizat pe 29 aprilie 2025