Veliki jezikovni modeli in razvoj ocenjevanja

Published on januar 20,2023

Shutterstock 2520071063

Av Charles Foster in Jesse Hamer

Uvod

Od leta 2021 smo v Finetune videli potencial velikih jezikovnih modelov (LLM) za preoblikovanje načina dela strokovnjakov na področju izobraževanja in ocenjevanja. Dramatična hitrost napredka na tem področju je pomenila, da lahko koncepti iz raziskovalne igrače v enem tednu preidejo v viralni izdelek naslednji teden.

Ni bilo presenečenje videti, kako navdušeni so bili odzivi na ChatGPT: v eni predstavitvi je vsak razumel, da stojimo na pragu nečesa velikega. Glede na trenutno navdušenje in negotovost bi se lahko vprašali: kako se patentirani Finetune Generate vključuje v to sliko? Če lahko preprosto vprašam generični klepetalnik, da mi napiše, zakaj bi potreboval še kaj drugega?

Radi mislimo, da so veliki jezikovni modeli temeljni modeli: AI sistemi, katerih obsežno in raznoliko usposabljanje jim omogoča, da delujejo kot temelj za širok spekter uporabnih primerov. Nekatere organizacije, vključno z Anthropic, EleutherAI in OpenAI (razvijalec ChatGPT), usposabljajo te velike modele in jih omogočajo drugim za uporabo. Vendar so sami modeli le osnovna plast: imajo veliko večji potencial, ko so vključeni v večji sistem, prilagojen za specifično aplikacijo. Tako kot druge tehnologije splošne rabe, kot je splet, bo morda trajalo celo generacijo raziskovalcev in podjetnikov, da zgradijo sisteme na vrhu tega, da se potencial realizira. V intervjuju z Ezro Kleinom je izvršni direktor OpenAI Sam Altman izrazi podobno mnenje:

Kar mislim, da nismo najboljši na svetu, niti ne želimo resnično preusmerjati svoje pozornosti [od], so vsi čudoviti izdelki, ki bodo zgrajeni na vrhu [velikih jezikovnih modelov]. In tako razmišljamo o svoji vlogi, da ugotovimo, kako zgraditi najsposobnejše AI sisteme na svetu in jih nato omogočiti vsakomur, ki sledi našim pravilom, da zgradi vse te sisteme na njih.

Altman, 2023

Z združevanjem LLM z bolj tradicionalnimi tehnologijami, kot so baze znanja in vmesniki z človekom v zanki, lahko ustvarimo zrele tehnološke sklade ali generativne aplikacije, ki nam omogočajo, da izkoristimo sposobnosti LLM za ustvarjanje pametnih orodij na vseh vrstah aplikacij. Generate in ChatGPT sta dva zgodnja primera teh.

Ob upoštevanju te strukture primerjajmo ChatGPT in Finetune Generate kot generativne aplikacije, ki sta obe zgrajeni na GPT-3, z vidika razvoja nalog.

Oblikovalski cilji

ChatGPT in Finetune Generate sta namenjena zagotavljanju bolj intuitivnega vmesnika za uporabnike, da komunicirajo z generativnimi modeli, kot je GPT-3. Poleg tega sta ti dve aplikaciji precej različni. OpenAI ima misijo zgraditi varne, splošne AI sisteme za vse in je zgradil ChatGPT, da bi širši javnosti omogočil vpogled v to, kaj so jezikovni modeli sposobni narediti z naravnim jezikom, ter da služi kot peskovnik za graditelje, da preizkusijo nove ideje.

V Finetune, čeprav sodelujemo s širšo raziskovalno skupnostjo okoli inovacij jezikovnih modelov (glej naše sodelovanje z OpenAI pri izboljšavah semantičnega iskanja), naš cilj pri Generate ni bil predvsem zgraditi nove sisteme splošne rabe, ampak zgraditi najboljše orodje za pisanje nalog z AI podporo. Zato je Generate zasnovan posebej z mislijo na pisce nalog, okoli njihovih najboljših praks, jezika in delovnih tokov. Vsi naši oblikovalski omejitve so bile osnovane na sodelovanju z različnimi zgodnjimi uporabniki. Vsak model Generate, ki ga zgradimo, je zasnovan tako, da odraža edinstveno strukturo vsakega ocenjevanja in daje uporabniku specifične kontrole, potrebne za njihovo nalogo. Poleg tega lahko celotne ekipe piscev nalog sodelujejo pri razvoju nalog z uporabo Generate, z vgrajeno funkcionalnostjo za upravljanje dovoljenj in strukturirano izvoz v formate, kot je QTI.

Specifičnost

Veliki jezikovni modeli gredo skozi začetno fazo usposabljanja, imenovano predusposabljanje, kjer v eni dolgi seji učijo iz milijonov strani s spleta, knjig in drugih virov. Zaradi stroškovnega usposabljanja iz teh virov je njihovo znanje običajno po usposabljanju fiksno. Ker je to tanek dialogni ovoj na vrhu GPT-3, ima ChatGPT podobno fiksno bazo znanja, ki je ni mogoče spremeniti. Če bi, recimo, tehnik želel pomoč glede nekega lastniškega sistema, takšen model verjetno ne bi bil koristen zanj, ker model nima načina za učenje nove snovi.

Partnerji Finetune segajo od K-12 do višjega izobraževanja do licenciranja in certificiranja ter pokrivajo široko paleto področij.

Zato je zanj ključno, da se modeli, ki jih gradimo zanje, učijo iz njihovega edinstvenega sadržaja - tudi če je ta sadržaj zelo specializiran ali nov - in morajo biti posodobljivi z novimi materiali, ko postanejo na voljo.

Da bi to omogočili, je naš tim za R&D na področju AI izpopolnil naše metode za učinkovito vključevanje novega znanja v jezikovne modele in za usmerjanje le-teh v specifične smernice ocenjevanja. Poleg tega se Generate dinamično uči s časom, da bolje uskladi naloge s specifičnim sadržajem in slogom nalog vsakega naročnika. V tem letu načrtujemo uvedbo še več funkcij, ki bodo nadalje izboljšale nadzor in prilagodljivost naših modelov, od ciljne usmeritve ključnih fraz do natančnega nadzora nad kognitivno kompleksnostjo in še več.

Varnost

Kot eksperimentalna predstavitev je ChatGPT namenjen pridobivanju povratnih informacij o tem, kako ljudje komunicirajo z jezikovnimi modeli, tako da lahko OpenAI izboljša temeljno tehnologijo, ki podpira njegove API-je. Zaradi tega, ko uporabniki komunicirajo s ChatGPT, se ti interakcije shranijo in lahko prinesejo v prihodnje učne podatke, da pomagajo usposobiti naslednjo generacijo modelov. To pomeni, da če razvijete ocenjevalno nalogo s ChatGPT, bodo prihodnji modeli morda vedeli zanj ali ga zapomnili, kar lahko izpostavi vaše naloge in slog nalog na načine, ki jih niste nameravali, in ogrozi njihovo varnost.

Varnost je ključna skrb pri razvoju nalog.

Generate ohranja naloge varne, ločene, pri čemer ima vsak naročnik dostop le do svojih modelov.

Še znotraj enega naročnika lahko uporabniki dostopajo le do specifičnih generiranih nalog. S Generate so naročniki vedno lastniki vseh nalog, ki jih ustvarijo, ne glede na to, ali preizkušajo začetni model ali so orodje sprejeli na široko.

Zaupanje in podpora

Velik del tega, kar otežuje produktivno uporabo LLM, je, da je temeljno naključno: postavite mu isto vprašanje dvakrat in dal vam bo dva različna odgovora. To nasprotuje temu, kar običajno pričakujemo od naših orodij: zanašamo se, da bodo zanesljiva. To vodi do enega izmed najbolj vztrajno prisotnih problemov s ChatGPT in drugimi orodji LLM, in sicer, da je težko zaupati njihovim izhodom, ko ne veste zakaj so bili ti izhodi izbrani. Je bilo to na podlagi dejstev, ki se jih model spominja, ali laži, ki jih je model iznašel, ali celo plagiat iz nekega nevidnega vira?

Standardi zaupanja v izobraževanju in ocenjevanju so visoki, veliko višji kot pri priložnostnih klepetalnikih. Naročniki želijo vedeti, da so naloge, ki jih proizvajajo preko Generate, resnično nove, temeljijo na njihovih lastnih materialih in so veljavne.

Naše ekipe za merjenje in R&D na področju AI sodelujejo z vsakim naročnikom, da ustvarijo modele, prilagojene njihovim potrebam, in vključijo njihove povratne informacije v nadaljnje izboljšave modelov.

Prav tako izvajamo ročne in avtomatizirane preglede, da potrdimo, da predlogi, ki jih Generate daje, ustrezajo specifikacijam naročnika. Kmalu bomo uvedli novo funkcijo, ki bo uporabnikom omogočila enostavno preverjanje generiranih nalog s referenčnimi materiali, tako da bodo lahko takoj dobili zagotovilo, da so naloge, ki jih proizvajajo, utemeljene na dejstvih.

Zaključek

To je razburljiv čas, v katerem bo zgrajenih na stotine generativnih aplikacij, ki bodo zasledovale različne potencialne uporabne primere za LLM. Ko jih raziskujete kot nekdo, ki mu je zelo mar za kakovost ocenjevanja v izobraževanju, certificiranju in licenciranju, priporočamo, da vedno upoštevate naslednja vprašanja:

  • Za koga je ta aplikacija zasnovana?
  • Ali je model, ki ga ta aplikacija uporablja, usposobljen posebej za to, kar moje organizacije potrebuje, vključno z našimi varnostnimi potrebami?
  • Kako bodo uporabljeni podatki, ki jih zagotovim?
  • Ali želim vložiti čas in denar, da bi surov splošni model postal uporaben (npr. ustrezen UI) in zaupan v naši predmetni strokovnjakih (SME), da bi se integriral v naš delovni proces in visokotvegani uporabni primer?

Še vedno smo v zgodnjih fazah te izjemno impresivne tehnologije, a že obseg sposobnosti, ki jih bodo generativne aplikacije omogočile v več industrijah, postaja očiten. Tako so tudi glasovi previdnosti, ki jih izraža Gary Marcus z NYU in drugi.

V Finetune smo zelo navdušeni, da bomo nadaljevali z razkrivanjem več funkcij v našem tretjem letu, ki bodo naredile Generate še še bolj zmogljiv, še še bolj zanesljiv in še še bolj koristen v celotnem prostoru učenja in ocenjevanja.

Posodobljeno 29. aprila 2025