Veliki jezični modeli i razvoj procjena

Pretraživanje

Kontaktirajte nas

Autor: Charles Foster i Jesse Hamer

Uvod

Od 2021. godine, u Finetuneu smo vidjeli potencijal velikih jezičnih modela (LLM) za transformaciju načina na koji profesionalci u obrazovanju i procjeni rade. Dramatična brzina napretka u ovom području značila je da koncepti mogu preći iz istraživačkog alata u viralni proizvod u samo tjedan dana.

Nije stoga bilo iznenađujuće vidjeti koliko je uzbuđenje izazvala reakcija na ChatGPT: u jednoj demonstraciji, svi su shvatili da stojimo na pragu nečega velikog. S obzirom na trenutno uzbuđenje i nesigurnost, može se postaviti pitanje: kako se patentirani Finetune Generate uklapa u ovaj okvir? Ako mogu samo pitati generički chatbot da napiše umjesto mene, zašto bih trebao bilo što drugo?

Volimo misliti o velikim jezičnim modelima kao o temeljnim modelima: AI sustavima čija opsežna i raznolika obuka omogućava da djeluju kao temelj za širok spektar slučajeva upotrebe. Neke organizacije uključujući Anthropic, EleutherAI i OpenAI (razvijač ChatGPT-a) treniraju ove goleme modele i stavljaju ih na raspolaganje drugim korisnicima. No, sami modeli su samo osnovni sloj: imaju mnogo veći potencijal kada su integrirani u veći sustav, prilagođeni za specifičnu primjenu. Baš kao i druge tehnologije opće namjene poput interneta, može proći cijela generacija istraživača i poduzetnika koji će graditi sustave na vrhu toga kako bi ostvarili svoj potencijal. U intervjuu s Ezra Kleinom, izvršni direktor OpenAI-a Sam Altman izrazio je sličan osjećaj:

Ono što mislim da nismo najbolji na svijetu, niti želimo skrenuti pažnju [s toga], su svi divni proizvodi koji će biti izgrađeni na vrhu [velikih jezičnih modela]. I tako razmišljamo o našoj ulozi da shvatimo kako izgraditi najsposobnije AI sustave na svijetu i zatim ih učiniti dostupnima svima koji slijede naša pravila za izgradnju svih ovih sustava na njima.
Altman, 2023

Kombiniranjem LLM-ova s tradicionalnijim tehnologijama poput baza znanja i sučelja s ljudima u petlji, možemo stvoriti zrele tehnološke stogove, ili generativne aplikacije, koje nam omogućuju da oslobodimo sposobnosti LLM-ova za stvaranje pametnih alata u raznim područjima primjene. Generate i ChatGPT su dva ranija primjera ovih aplikacija.

Imajući ovaj okvir na umu, usporedimo ChatGPT i Finetune Generate kao generativne aplikacije koje su obje izgrađene na GPT-3, s obzirom na razvoj stavki.

Ciljevi dizajna

Obje, ChatGPT i Finetune Generate, namijenjene su pružanju intuitivnijeg sučelja za korisnike kako bi mogli komunicirati s generativnim modelima poput GPT-3. Osim toga, te aplikacije su prilično različite. OpenAI ima misiju izgraditi sigurne, opće AI sustave za sve i izgradio je ChatGPT kako bi javnosti pružio uvid u ono što su jezični modeli sposobni učiniti s prirodnim jezikom, i da posluži kao sandbox za graditelje koji žele isprobati nove ideje.

U Finetuneu, iako se bavimo širim istraživačkim zajednicama oko inovacija jezičnih modela (vidi našu suradnju s OpenAI-em na poboljšanjima semantičkog pretraživanja), naš cilj s Generate nije bio prvenstveno izgraditi nove opće sustave, već izgraditi najbolji mogući alat za pisanje stavki uz pomoć AI. Zato je Generate posebno izgrađen s piscima stavki na umu, oko njihovih najboljih praksi, jezika i radnih tijekova. Sva naša dizajnerska ograničenja temeljena su na angažmanu s raznolikim skupinama ranih korisnika. Svaki Generate model koji izgradimo dizajniran je da odražava jedinstvenu strukturu svake procjene i pruža korisniku specifične kontrole potrebne za njihov zadatak. Štoviše, cijeli timovi pisaca stavki mogu surađivati na razvoju stavki koristeći Generate, s ugrađenom funkcionalnošću koja omogućava upravljanje dozvolama i strukturirani izvoz u formate poput QTI.

Specifičnost

Veliki jezični modeli prolaze kroz početnu fazu obuke nazvanu predobuka, gdje u jednoj dugoj sesiji uče iz milijuna stranica s interneta, knjiga i drugih izvora. Zbog toga što je izračun učenja iz tih unosa skup, njihovo znanje obično ostaje fiksno nakon toga. Budući da je to tanka dijaloška omotnica na vrhu GPT-3, ChatGPT također ima fiksnu bazu znanja koja se ne može mijenjati. Ako, recimo, tehničar želi pomoć u vezi s nekim vlasničkim sustavom, takav model vjerojatno im ne bi bio od pomoći, jer model nema način da uči novu temu.

Finetuneovi partneri pokrivaju raspon od K-12 do visokog obrazovanja do licenciranja i certifikacije, i obuhvaćaju širok spektar područja.

Stoga je ključno za nas da modeli koje gradimo za njih moraju učiti iz njihovog jedinstvenog sadržaja—čak i ako je taj sadržaj visoko specijaliziran ili nov—i moraju biti ažurirani novim materijalima kako postaju dostupni.

Kako bismo to omogućili, naš AI R&D tim je usavršio naše vlastite metode za učinkovito uključivanje novog znanja u jezične modele i ciljanje prema specifičnim smjernicama procjene. Štoviše, Generate dinamički uči s vremenom kako bi bolje ciljao stavke na specifičan sadržaj i stil zadataka svakog korisnika. Tijekom ove godine planiramo uvesti nekoliko dodatnih značajki koje će nastaviti poboljšavati kontrolu i prilagodljivost naših modela, od ciljanih ključnih fraza do precizne kontrole nad kognitivnom složenošću i još dalje.

Sigurnost

Kao eksperimentalna demonstracija, ChatGPT je namijenjen prikupu povratnih informacija o tome kako ljudi komuniciraju s jezičnim modelima, kako bi OpenAI mogao poboljšati temeljnu tehnologiju koja podržava njegove API-je. Zbog toga, kada korisnici razgovaraju s ChatGPT-om, te interakcije se pohranjuju i mogu se naći u budućim skupovima podataka za obuku, kako bi pomogle u obuci sljedeće generacije modela. To znači da ako razvijete stavku procjene s ChatGPT-om, budući modeli mogu znati o tome ili ga zapamtiti, potencijalno izlažući vaše stavke i stil stavki na načine koje niste namjeravali, riskirajući njihovu sigurnost.

Sigurnost je ključna briga u razvoju stavki.

Generate čuva stavke sigurnima, odvojenima, s tim da svaki kupac ima pristup samo svojim modelima.

Čak i unutar jednog kupca, korisnici mogu biti ograničeni na pristup samo određenim generiranim stavkama. S Generateom, kupci su uvijek vlasnici bilo kojih stavki koje proizvedu, bez obzira pokušavaju li samo isprobati početni model ili su usvojili alat na velikoj skali.

Povjerenje i podrška

Puno toga što otežava produktivnu upotrebu LLM-a je to što je osnovno slučajno: pitajte ga isto pitanje dvaput i dobit ćete dva različita odgovora. To je suprotno onome što obično očekujemo od naših alata: oslanjamo se na njih da budu pouzdani. To dovodi do jednog od najperzistentnijih problema s ChatGPT-om i drugim LLM alatima, a to je da je teško vjerovati njihovim ishodima kada ne znate zašto su ti ishodi odabrani. Je li to bilo na temelju činjenica koje model pamti, ili izmišljenih neistina koje je model stvorio, ili čak plagijat iz nekog nevidljivog izvora?

Standardi povjerenja unutar obrazovanja i procjene su visoki, mnogo viši nego za casual chatbote. Kupci žele znati da su stavke koje proizvode putem Generatea zaista nove, da se temelje na njihovim vlastitim materijalima i da su valjane.

Naši timovi za mjerenje i AI R&D rade s svakim kupcem kako bi stvorili modele prilagođene njihovim potrebama i kako bi uključili njihove povratne informacije u kontinuirana poboljšanja modela.

Također provodimo ručne i automatske provjere kako bismo provjerili da prijedlozi koje Generate daje odgovaraju specifikacijama kupca. Ubrzo ćemo uvesti novu značajku koja će omogućiti korisnicima da lako uporede generirane stavke s referentnim materijalima, kako bi imali trenutnu sigurnost da su stavke koje proizvode utemeljene na činjenicama.

Zaključak

Ovo je uzbudljivo vrijeme u kojem će se izgraditi stotine generativnih aplikacija, od kojih svaka teži različitim potencijalnim slučajevima upotrebe za LLM-ove. Dok ih istražujete kao netko tko duboko brine o kvaliteti procjene u obrazovanju, certifikaciji i licenciranju, preporučujemo da uvijek imate na umu sljedeća pitanja:

Za koga je ova aplikacija dizajnirana?
Je li model koji ova aplikacija koristi posebno treniran za ono što mojoj organizaciji treba, uključujući naše sigurnosne potrebe?
Kako će se podaci koje pružim koristiti?
Želim li uložiti vrijeme i novac da učinim sirovi model opće namjene upotrebljivim (npr. odgovarajući UI) i pouzdanim za naše stručnjake za predmet (SME) kako bi bio integriran u naš radni tijek i visoko rizični slučaj upotrebe?

Još uvijek smo u ranim danima ove izuzetno impresivne tehnologije, ali već je očito koliko će generativne aplikacije omogućiti sposobnosti u raznim industrijama. Također su očite i glasine opreza koje izražavaju Gary Marcus s NYU-a i drugi.

U Finetuneu smo vrlo uzbuđeni što ćemo nastaviti prikazivati više značajki u našoj trećoj godini koje će učiniti Generate čak performantnijim, čak pouzdanijim i čak korisnijim u cijelom području učenja i procjene.

Ažurirano 29. travnja 2025.

Pronađite svoj ispit

Prije vašeg ispita

Smještaj

Na dan ispita

Nakon vašeg ispita

Često postavljana pitanja

Zatvaranje testnih centara

Razvoj procjene

Globalna dostava

Iskustvo kandidata

Rast programa

Sigurnost

Podešavanje AI

Resursi za klijente

Razvoj ispita uz pomoć umjetne inteligencije

Katalogizacija AI sadržaja

Razvoj vještina u VR-u

Dostava u centru

Daljinska isporuka

Iskustvo pripreme

Biblioteka sadržaja

Jezična osposobljenost

Razvoj procjene umjetne inteligencije

Poravnanje sadržaja umjetne inteligencije

Platforma za procjenu

Podaci o uvidima

PL Portfelj

Podrška rješenjima za obrazovanje

Tehnologija

Globalna zdravstvena zaštita

Financije

Vlada

Udruge

Obrazovanje

Potrošač

Priče o uspjehu

Vodiči i bijele knjige

Webinari

Događaji

Blog

Istraživanje

Vođenje

Globalni uredi

Prometric ispiti

Press soba

Karijere

Plan smanjenja ugljika

Kontaktirajte nas

Veliki jezični modeli i razvoj procjena

Uvod

Ciljevi dizajna

Specifičnost

Sigurnost

Povjerenje i podrška

Zaključak