Nagy Nyelvi Modellek és Értékelés Fejlesztése

Published on január 20,2023

Shutterstock 2520071063

Charles Foster és Jesse Hamer

Bevezetés

2021 óta a Finetune-nál láttuk a Nagy Nyelvi Modellek (LLM) potenciálját az oktatás és értékelés területén dolgozó szakemberek munkájának átalakításában. Ennek a területnek a fejlődése olyan gyors ütemben zajlik, hogy a koncepciók egyik héten még kutatási játékszerek, a következő héten pedig már virális termékek lehetnek.

Nem volt meglepő látni, hogy mennyire izgatottan reagáltak az emberek a ChatGPT-re: egy bemutató során mindenki megértette, hogy valami nagyszerű küszöbén állunk. Figyelembe véve a jelenlegi izgalmat és bizonytalanságot, felmerülhet a kérdés: hogyan illeszkedik a szabadalmaztatott Finetune Generate ebbe a környezetbe? Ha csak egy általános chatbotot kérhetnék meg, hogy írja meg a szövegemet, miért lenne szükségem másra?

Szeretjük a Nagy Nyelvi Modelleket alapmodelleknek tekinteni: olyan AI rendszerek, amelyek széleskörű és változatos képzésük révén alapot nyújtanak számos felhasználási esetre. Néhány szervezet, mint például az Anthropic, az EleutherAI és az OpenAI (a ChatGPT fejlesztője) ezeket a hatalmas modelleket képezik és teszik elérhetővé mások számára. De maguk a modellek csupán az alapréteget jelentik: sokkal nagyobb potenciál rejlik bennük, amikor egy nagyobb rendszerbe ágyazzák őket, amely egy adott alkalmazásra van szabva. Csakúgy, mint más általános célú technológiák, mint például a web, valószínűleg egy egész kutatógenerációnak és vállalkozónak kell dolgoznia a felett, hogy a potenciáljukat megvalósítsák. Az Ezra Klein-nal készült interjúban az OpenAI vezérigazgatója, Sam Altman hasonló érzéseket fejezett ki:

Azt hiszem, amiben nem vagyunk a világ legjobbjai, és amit nem is akarunk elvonni a figyelmünkből, azok a csodálatos termékek, amelyeket a [nagy nyelvi modellek] tetejére fognak építeni. Így a szerepünket abban látjuk, hogy kitaláljuk, hogyan építhetjük meg a világ legképzettebb AI rendszereit, majd ezeket elérhetővé tegyük bárki számára, aki követi a szabályainkat, hogy mindezeket a rendszereket a tetejükre építhessék.

Altman, 2023

A LLM-eket a hagyományosabb technológiákkal, mint például tudásbázisokkal és emberi visszajelzéssel működő interfészekkel kombinálva érett technológiai halmazokat, vagy generatív alkalmazásokat hozhatunk létre, amelyek lehetővé teszik, hogy kiaknázzuk az LLM-ek képességeit okos eszközök létrehozására mindenféle alkalmazási területen. A Generate és a ChatGPT ezek korai példái.

Ezt a keretet figyelembe véve hasonlítsuk össze a ChatGPT-t és a Finetune Generate-t mint generatív alkalmazásokat, amelyek mindketten a GPT-3-ra épülnek, az item fejlesztés szempontjából.

Tervezési Célok

A ChatGPT és a Finetune Generate célja, hogy intuitívabb interfészt biztosítson a felhasználók számára a generatív modellek, például a GPT-3 használatára. Ezen túlmenően a két alkalmazás meglehetősen eltérő. Az OpenAI küldetése biztonságos, általános célú AI rendszerek építése mindenki számára, és a ChatGPT-t úgy alkották meg, hogy a nagyközönség ízelítőt kapjon arról, mire képesek a nyelvi modellek a természetes nyelven, és hogy tesztkörnyezetként szolgáljon a fejlesztők új ötleteik kipróbálásához.

A Finetune-nál, bár foglalkozunk a nyelvi modell innovációkkal kapcsolatos szélesebb kutatóközösséggel (lásd együttműködésünket az OpenAI-jal a szemantikus keresés fejlesztése érdekében), a Generate célja nem elsősorban új általános célú rendszerek építése volt, hanem inkább a legjobb eszköz megalkotása az AI-támogatott item íráshoz. Ezért a Generate kifejezetten az item írók igényeire lett tervezve, figyelembe véve legjobb gyakorlataikat, nyelvüket és munkafolyamataikat. Az összes tervezési korlátunk a korai adaptálók széles spektrumával való együttműködésen alapult. Minden Generate modell, amelyet építünk, úgy lett megtervezve, hogy tükrözze az egyes értékelések egyedi struktúráját, és megadja a felhasználónak a feladatukhoz szükséges specifikus vezérlőket. Továbbá, egész csapatok is együttműködhetnek itemek fejlesztésében a Generate használatával, beépített funkciókkal, amelyek lehetővé teszik a jogosultságkezelést és a strukturált exportálást olyan formátumokba, mint a QTI.

Specifikusság

A nagy nyelvi modellek egy kezdeti képzési fázison mennek keresztül, amelyet előképzésnek neveznek, ahol egy hosszú ülés során milliók oldalról tanulnak a weben, könyvekben és más forrásokból. Mivel a tanulás költségei nagyon magasak, a tudásuk általában rögzített marad. Mivel a ChatGPT egy vékony párbeszéd réteg a GPT-3 felett, hasonlóan fix tudásbázissal rendelkezik, amely nem módosítható. Ha például egy technikus segítséget kérne egy szabadalmaztatott rendszerrel kapcsolatban, egy ilyen modell valószínűleg nem lenne hasznos számára, mert a modellnek nincs módja új tantárgyakat megtanulni.

A Finetune partnerei a K-12-től kezdve a felsőoktatáson át a licencelésig és tanúsításig terjednek, és széleskörű területeket ölelnek fel.

Ezért számunkra kritikus, hogy az általuk számára épített modellek a saját egyedi tartalmukból tanuljanak – még akkor is, ha ez a tartalom rendkívül specializált vagy újszerű – és frissíthetők legyenek új anyagokkal, amint azok elérhetővé válnak.

Ennek lehetővé tétele érdekében AI K+F csapatunk finomította a saját módszereinket, hogy hatékonyan beépíthessük az új tudást a nyelvi modellekbe, és hogy azokat a konkrét értékelési irányelvekhez célozhassuk. Továbbá, a Generate az idő múlásával dinamikusan tanul, hogy jobban célozza meg az itemeket az egyes ügyfelek feladataihoz igazodó tartalom és stílus alapján. Az év folyamán több új funkciót tervezünk bevezetni, amelyek tovább javítják a modelljeink kontrollálhatóságát és alkalmazkodóképességét, a kulcsszavak célzásától a kognitív komplexitás finomhangolásáig és azon túl.

Biztonság

Kísérleti bemutatóként a ChatGPT célja, hogy visszajelzést gyűjtsön arról, hogyan lépnek kapcsolatba az emberek a nyelvi modellekkel, hogy az OpenAI javíthassa az API-jait támogató alaptechnológiát. Ennek következtében, amikor a felhasználók a ChatGPT-vel beszélgetnek, ezek az interakciók tárolásra kerülnek és a jövőbeli képzési adathalmazokba kerülhetnek, hogy segítsenek a következő generációs modellek képzésében. Ez azt jelenti, hogy ha egy értékelési itemet a ChatGPT-vel fejlesztesz, a jövőbeli modellek tudomást szerezhetnek róla vagy megjegyezhetik azt, potenciálisan felfedve itemeidet és itemstílusodat olyan módon, ahogyan azt nem szándékoztad, kockáztatva ezzel a biztonságukat.

A biztonság kulcsfontosságú szempont az item fejlesztés során.

A Generate megőrzi az itemek biztonságát, elkülönítve azokat, így minden ügyfél csak a saját modelljeihez fér hozzá.

Még egyetlen ügyfélen belül is a felhasználók korlátozhatók arra, hogy csak specifikus generált itemeket érhessenek el. A Generate segítségével az ügyfelek mindig a termelt itemek tulajdonosai, függetlenül attól, hogy csak egy kezdeti modellt próbálnak ki, vagy már nagy léptékben alkalmazzák az eszközt.

Bizalom és Támogatás

Sok olyan tényező van, amely megnehezíti a LLM produktív használatát, hogy az alapvetően véletlenszerű: tedd fel ugyanazt a kérdést kétszer, és két különböző választ kapsz. Ez ellentmond annak, amit általában elvárunk az eszközeinktől: megbízhatónak kell lenniük. Ez vezet a ChatGPT és más LLM eszközök egyik legkitartóbb problémájához, nevezetesen, hogy nehéz megbízni a kimeneteikben, amikor nem tudod, miért választották azokat. Tényeken alapultak, amelyeket a modell felidéz, vagy hamis állítások, amelyeket a modell kitalált, vagy akár plágium egy láthatatlan forrásból?

A bizalom standardjai az oktatás és értékelés területén magasak, sokkal magasabbak, mint a hétköznapi chatbotok esetében. Az ügyfelek tudni akarják, hogy a Generate segítségével létrehozott itemek valóban újak, a saját anyagaikra építenek és érvényesek.

A Mi Méréstechnikai és AI K+F csapataink az ügyfelekkel együtt dolgoznak, hogy az igényeiknek megfelelő modelleket hozzanak létre, és beépítsék a visszajelzéseiket a folyamatos modellfejlesztésekbe.

Kézi és automatikus ellenőrzéseket is végzünk annak ellenőrzésére, hogy a Generate által javasolt megoldások megfelelnek az ügyfél specifikációinak. Hamarosan bevezetünk egy új funkciót, amely lehetővé teszi a felhasználók számára, hogy könnyen összehasonlítsák a generált itemeket a referenciaanyagokkal, így azonnali biztosítékot kapjanak arról, hogy a termelt itemek tényleg a tényekre épülnek.

Következtetés

Ez egy izgalmas időszak, amelyben százával épülnek generatív alkalmazások, mind különböző potenciális felhasználási esetekre törekedve az LLM-ek számára. Miközben felfedezed őket, mint valaki, aki mélyen törődik az oktatási, tanúsítási és licencelési értékelések minőségével, ajánljuk, hogy mindig tartsd szem előtt a következő kérdéseket:

  • Kinek készült ez az alkalmazás?
  • Az alkalmazás által használt modell kifejezetten az én szervezetem igényeire van képezve, beleértve a biztonsági igényeinket is?
  • Hogyan fogják felhasználni az általam megadott adatokat?
  • Meg akarom-e fektetni az időt és pénzt egy nyers, általános célú modell használhatóvá tételébe (pl. a megfelelő UI) és abba, hogy a Tárgyterületi Szakértőink (SME-k) bízzanak benne, hogy integrálható legyen a munkafolyamatunkba és a magas kockázatú felhasználási esetünkbe?

Még mindig a technológia korai szakaszában vagyunk, de már most is nyilvánvalóvá válik, hogy a generatív alkalmazások milyen mértékű képességeket fognak engedni meg több iparágban. Ugyanakkor Gary Marcus az NYU-tól és mások figyelmeztetései is egyre inkább hallhatóak.

A Finetune-nál nagyon izgatottak vagyunk, hogy továbbra is bemutathassuk új funkcióinkat a harmadik évünkben, amelyek révén a Generate még teljesítményesebb, még megbízhatóbb és még hasznosabb lesz az egész tanulási és értékelési tájban.

Frissítve: 2025. április 29.