Di Charles Foster e Jesse Hamer
Introduzione
Dal 2021, in Finetune abbiamo visto il potenziale dei Modelli di Linguaggio di Grandi Dimensioni (LLM) per trasformare il modo in cui i professionisti nell'educazione e nella valutazione lavorano. Il ritmo drammatico dei progressi in questo settore ha significato che i concetti possono passare da un giocattolo di ricerca una settimana, a un prodotto virale la settimana successiva.
Non è stato quindi sorprendente vedere quanto fosse entusiasta la risposta a ChatGPT: in una demo, tutti hanno capito che stiamo per varcare la soglia di qualcosa di grandioso. Dato l'attuale entusiasmo e incertezza, ci si potrebbe chiedere: come si inserisce il Finetune Generate brevettato in questo panorama? Se potessi semplicemente chiedere a un chatbot generico di fare la mia scrittura per me, perché avrei bisogno di qualcos'altro?
Ci piace pensare ai Modelli di Linguaggio di Grandi Dimensioni come modelli di base: sistemi di intelligenza artificiale il cui ampio e variegato addestramento consente loro di fungere da fondamenta per una vasta gamma di casi d'uso. Alcune organizzazioni, tra cui Anthropic, EleutherAI e OpenAI (lo sviluppatore di ChatGPT), addestrano questi giganteschi modelli e li rendono disponibili per altri. Ma i modelli stessi sono solo il livello base: hanno unpotenziale molto maggiore quando sono intrecciati in un sistema più grande, su misura per un'applicazione specifica. Proprio come altre tecnologie a uso generale come il Web, potrebbe essere necessaria un'intera generazione di ricercatori e imprenditori per costruire sistemi su di esso, affinché realizzi il suo potenziale. In un'intervista con Ezra Klein, il CEO di OpenAI Sam Altman ha espresso un sentimento simile:
Quello in cui penso che non siamo i migliori al mondo, né vogliamo davvero deviare la nostra attenzione [da], sono tutti i meravigliosi prodotti che saranno costruiti sopra [i modelli di linguaggio di grandi dimensioni]. E quindi pensiamo al nostro ruolo come a capire come costruire i sistemi di intelligenza artificiale più capaci del mondo e poi renderli disponibili a chiunque segua le nostre regole per costruire tutti questi sistemi sopra di essi.
Altman, 2023
Combinando LLM con tecnologie più tradizionali come banche dati e interfacce con l'uomo nel processo, possiamo creare stack tecnologici maturi, o applicazioni generative, che ci permettono di liberare le capacità degli LLM per creare strumenti intelligenti in tutti i tipi di aree applicative. Generate e ChatGPT sono due esempi precoci di questi.
Con questo quadro in mente, confrontiamo ChatGPT e Finetune Generate come applicazioni generative entrambe costruite su GPT-3, dal punto di vista dello sviluppo degli elementi.
Obiettivi di Design
Sia ChatGPT che Finetune Generate sono progettati per fornire un'interfaccia più intuitiva per gli utenti per interagire con modelli generativi come GPT-3. Oltre a ciò, le due applicazioni sono piuttosto diverse. OpenAI ha una missione per costruire sistemi di intelligenza artificiale sicuri e a uso generale per tutti, e ha creato ChatGPT per dare al pubblico generale un assaggio di cosa sono capaci di fare i modelli di linguaggio con il linguaggio naturale, e per fungere da sandbox per gli sviluppatori per testare nuove idee.
In Finetune, sebbene ci impegniamo con la comunità di ricerca più ampia intorno alle innovazioni nei modelli di linguaggio (vedi la nostra collaborazione con OpenAI per miglioramenti nella ricerca semantica), il nostro obiettivo con Generate non era principalmente quello di costruire nuovi sistemi a uso generale, ma piuttosto di costruire il miglior strumento possibile per la scrittura assistita dall'IA. Ecco perché Generate è costruito specificamente tenendo a mente gli scrittori di elementi, attorno alle loro migliori pratiche, linguaggio e flussi di lavoro. Tutti i nostri vincoli di design sono stati basati sull'impegno con una varietà di primi adottanti. Ogni modello Generate che costruiamo è progettato per riflettere la struttura unica di ciascuna valutazione e offre all'utente i controlli specifici necessari per il loro compito. Inoltre, interi team di scrittori di elementi possono collaborare allo sviluppo di elementi utilizzando Generate, con funzionalità integrate per consentire la gestione delle autorizzazioni e l'esportazione strutturata in formati come QTI.
Specificità
I modelli di linguaggio di grandi dimensioni attraversano una fase iniziale di addestramento chiamata pre-addestramento, dove in una lunga sessione apprendono da milioni di pagine del web, libri e altre fonti. A causa di quanto sia costosa la computazione dell'apprendimento da quegli input, la loro conoscenza è tipicamente fissa in seguito. Poiché è un sottile involucro di dialogo sopra GPT-3, anche ChatGPT ha una base di conoscenza fissa che non può essere modificata. Se, ad esempio, un tecnico volesse aiuto riguardo a un sistema proprietario, un tale modello probabilmente non sarebbe utile per loro, perché il modello non ha modo di apprendere nuovi argomenti.
I partner di Finetune spaziano da K-12 all'istruzione superiore fino a licenze e certificazioni, e coprono una vasta gamma di settori.
Perciò, è fondamentale per noi che i modelli che costruiamo per loro debbano apprendere dai loro contenuti unici—anche se quel contenuto è altamente specializzato o nuovo—e devono essere aggiornabili con nuovi materiali man mano che diventano disponibili.
Per rendere questo possibile, il nostro team di R&D dell'IA ha perfezionato i nostri metodi per incorporare in modo efficiente nuove conoscenze nei modelli di linguaggio e per indirizzarli alle specifiche linee guida di un'assegnazione. Inoltre, Generate apprende dinamicamente nel tempo per meglio indirizzare gli elementi al contenuto e allo stile specifici dei compiti di ciascun cliente. Nel corso di quest'anno prevediamo di lanciare diverse altre funzionalità che continueranno a migliorare il controllo e l'adattabilità dei nostri modelli, dal targeting delle frasi chiave al controllo fine della complessità cognitiva e oltre.
Sicurezza
Essendo una demo sperimentale, ChatGPT è destinato a suscitare feedback su come le persone interagiscono con i modelli di linguaggio, in modo che OpenAI possa migliorare la tecnologia fondamentale che supporta le sue API. A causa di ciò, quando gli utenti parlano con ChatGPT, quelle interazioni vengono memorizzate e potrebbero finire nei futuri set di dati di addestramento, per aiutare ad addestrare la prossima generazione di modelli. Ciò significa che se sviluppi un elemento di valutazione con ChatGPT, i modelli futuri potrebbero conoscerlo o averlo memorizzato, esponendo potenzialmente i tuoi elementi e il tuo stile di elementi in modi che non intendevi, a rischio della loro sicurezza.
La sicurezza è una preoccupazione chiave nello sviluppo degli elementi.
Generate mantiene gli elementi sicuri, isolati, con ciascun cliente che accede solo ai propri modelli.
Anche all'interno di un singolo cliente, gli utenti possono essere limitati ad accedere solo a elementi generati specifici. Con Generate, i clienti sono sempre i proprietari di qualunque elemento producano, indipendentemente dal fatto che stiano semplicemente provando un modello iniziale o abbiano adottato lo strumento su scala.
Fiducia & Supporto
Gran parte di ciò che rende difficile utilizzare un LLM in modo produttivo è che è fondamentalmente casuale: chiedi la stessa domanda due volte e ti darà due risposte diverse. Questo va contro ciò che ci aspettiamo normalmente dai nostri strumenti: contiamo su di essi per essere affidabili. Questo porta a uno dei problemi più persistenti con ChatGPT e con altri strumenti LLM, ovvero che è difficile fidarsi delle loro uscite quando non sai perché quelle uscite sono state scelte. Era basato su fatti che il modello ricorda, o false credenze inventate dal modello, o persino plagiate da qualche fonte invisibile?
Gli standard di fiducia nell'educazione e nella valutazione sono elevati, molto più alti rispetto ai chatbot casuali. I clienti vogliono sapere che gli elementi che producono tramite Generate siano davvero nuovi, basati sui loro materiali, e validi.
I nostri team di Misurazione e R&D dell'IA lavorano con ciascun cliente per creare modelli su misura per le loro esigenze e per incorporare il loro feedback nei miglioramenti dei modelli in corso.
Effettuiamo anche controlli manuali e automatici per verificare che le proposte che Generate fa corrispondano alle specifiche del cliente. Presto lanceremo una nuova funzionalità che permetterà agli utenti di confrontare facilmente gli elementi generati con materiali di riferimento, in modo da avere immediata rassicurazione che gli elementi che producono siano fondati su fatti.
Conclusione
Questo è un momento entusiasmante in cui centinaia di applicazioni generative saranno sviluppate, tutte perseguendo diversi potenziali casi d'uso per gli LLM. Mentre li esplori come qualcuno che si preoccupa profondamente della qualità della valutazione nell'educazione, certificazione e licenza, ti consigliamo di tenere sempre a mente le seguenti domande:
- Per chi è progettata questa applicazione?
- Il modello utilizzato da questa applicazione è addestrato specificamente per ciò di cui la mia organizzazione ha bisogno, comprese le nostre esigenze di sicurezza?
- Come verranno utilizzati i dati che fornisco?
- Voglio investire tempo e denaro per rendere utilizzabile un modello generico (ad es. l'interfaccia utente appropriata) e affidabile dai nostri Esperti di Materia (SME) per essere integrato nel nostro flusso di lavoro e nel nostro caso d'uso ad alto rischio?
Siamo ancora nei primi giorni di questa tecnologia profondamente impressionante, ma già l'estensione delle capacità che le applicazioni generative abiliteranno in diversi settori sta diventando evidente. Anche le voci di cautela espresse da Gary Marcus della NYU e altri sono altrettanto evidenti.
In Finetune siamo molto entusiasti di continuare a mostrare ulteriori funzionalità nel nostro terzo anno che renderanno Generate anche più performante, anche più affidabile e anche più utile in tutto il panorama dell'apprendimento e della valutazione.
Aggiornato il 29 aprile 2025