Gan Charles Foster
Yn Finetune, rydym yn adeiladu atebion AI i fynd i'r afael â rhai o'r problemau mwyaf heriol yn y dechnoleg addysgol, gan gynnwys cynhyrchu cynnwys awtomataidd a chategoreiddio a chynghoriadau adnoddau dysgu dan bŵer AI. Oherwydd bod y pwnc y mae ein holl offer yn gorfod ymdrin ag ef yn ymestyn o K-12 hyd at ddatblygiad y gweithlu, rydym yn buddsoddi'n drwm mewn dulliau sy'n ein galluogi i gynyddu ehangder a dyfnder yr hyn a dynnir gan ein modelau. Mae prif gydrannau'r dull hwn yn ddulliau hyblyg i hyfforddi rhwydweithiau niwral penodol yn y meysydd lle nad yw modelau cyffredinol yn ddigonol. Yn y blog hwn, hoffwn rannu ychydig am ein taith wrth archwilio'r dulliau hyn.
Ffineiddio
Mae ffineiddio nodweddiadol o fodelau iaith niwral yn cynnwys optimeiddio'r holl baramedrau hyfforddiadwy ar yr un pryd, sy'n gallu cyrraedd llawer o filiynau ar gyfer rhwydweithiau fel GPT-J. Ar raddfa fel hon, mae'r prosesau ffineiddio a rhagfynegi yn anodd, gan wneud ei throsglwyddo'n eang yn anodd. Yn ein hymchwil ein hunain, ymddengys bod rhai materion allweddol yn dod i'r amlwg:
- Mae rhedeg y modelau trawsffurfiwr hyn eisoes yn cyrraedd cyfyngiadau cof GPU (VRAM), ac yn ystod ffineiddio mae perthynas uniongyrchol rhwng nifer y paramedrau sy'n cael eu optimeiddio a'r swm o gof ychwanegol a ddefnyddir.
- Trwy newid yr holl baramedrau yn y rhwydwaith, gall llif gwybodaeth a ddysgwyd yn ystod y parhad-hyfforddi gael ei dorri, gan arwain at anghofio a cholled y gallu i wneud ychydig o fanylion.
- Bydd darparu model multi-gigabit wedi'i deilwra ar gyfer pob achos defnydd yn creu oedi a phwysau costau anderbynadwy.
Roedd y pryderon cyfuniadol hyn yn ein hysgogi i archwilio dulliau eraill o'r llenyddiaeth ddiweddar i ffineiddio ein modelau iaith niwral. Yn ffodus, yn ystod y flwyddyn ddiwethaf, mae'r maes ymchwil prosesu iaith naturiol wedi datblygu nifer o ddulliau i leihau costau addasu ymddygiad modelau iaith sydd wedi'u hyfforddi ymlaen llaw.
Ffineiddio Rhaglen
Y dull gwreiddiol a ddilynwyd gennym yw o'r enw Ffineiddio Rhaglen neu Rhaglen Feddal (Lester et al. 2021). Yn y dull hwn, mae paramedrau'r rhwydwaith o hyfforddiant cyn ymarfer yn cael eu dal yn rewi. Yn lle, rydym yn ychwanegu nifer fach o fectorau embed sy'n gallu cael eu dysgu (fel arfer 10 i 20) o flaen y tokenau rhaglen, ac yn ffineiddio'r embed hyn gyda'r gobaith modelu iaith arferol ar set ddata ffineiddio. Nid yw'r embed hyn yn cynrychioli tokenau iaith; gallwn feddwl amdanynt yn lle hynny fel storfa deneuol o gyd-destun y gall y rhwydwaith ei ddibynnu ar—trwy'r mechanwaith sylw—wrth iddo wneud rhagfynegiadau am y tokenau yn y dilyniant.
Mae ffineiddio rhaglen yn ychwanegu dim ond cost rhedeg fach i'r model, gan fod y rhaglenni meddal yn y llefydd kilobyte a gellir eu rhedeg trwy'r rhwydwaith yn gyfochrog. Mae'r nodweddion hyn yn eu gwneud yn ddeniadol ar gyfer darparu llawer o ddefnyddwyr cyfochrog, fel y dangoswyd yn ddiweddar gan weithredu'r techneg yn storïau AI. Fodd bynnag, mae integreiddio rhaglenni meddal i fframweithiau poblogaidd fel trawsffurfiwr HuggingFace yn gymhleth, gan fod y rhyngwynebau yn bennaf wedi'u cynllunio i weithredu ar ddilyniannau o fanylion token yn hytrach na fectorau deneuol. Yn ogystal, wrth ychwanegu mwy o gyd-destun rhwng y rhaglen feddal a'r cynhyrchu, dechreuwn weld anghydraddoldeb rhwng cryfder y dibyniaeth ar y rhaglen feddal a'r cyd-destun token. Roedd cadw'r gallu i ychwanegu'n hyblyg cannoedd o tokenau o gyd-destun yn amser real yn bwysig i ni, gan ei fod yn darparu lleisiau cain ychwanegol o reoleiddio yn y broses awduriaeth eitemau. Os ydym am arwain y model i ganolbwyntio ar gynnwys o dudalen benodol o lyfr testun, neu i awdur eitem dealltwriaeth ddarllen, neu i ddarparu enghreifftiau ychydig, mae cyd-destun hir yn bwysig.
Adaptyddau Isel Rhestr (LoRA)
Yn ddiweddarach, fe wnaethom drosi i ddull o'r enw LoRA neu Adaptydd Isel Rhestr (Hu et al. 2021). Datblygwyd y techneg hon gan ymchwilwyr yn Microsoft sy'n gweithio ar fodelau maint GPT-3, ac mae'n seilio ar ddulliau adaptydd cynnar. Os ydym yn meddwl am drawsffurfiwr fel y bydd yn gwella ei gyflwr cudd token yn raddol gyda phob haen weddilliol, y cysyniad o adaptydd yw ychwanegu delta fach, dibynnol ar y mewnbwn (sy'n cael ei sefydlu i ddim gweithred) i'r rhai cudd ar haen benodol. Mae'r cyffwrdd cynnil hwn wedyn yn gallu modiwleiddio ei ymddygiad i lawr y llwybr, er enghraifft, trwy bwysleisio'r rhannau o'r mewnbwn sy'n berthnasol i'r gorchwyl.
Mae adaptyddion isel rhestr yn fath o adaptydd sy'n targedu is-ardal isel, sy'n lleihau nifer y paramedrau newydd y mae angen i ni eu hyfforddi (o D2 i 2 × D × r, lle mae D yn y miloedd). Fel gyda rhaglenni meddal, rydym yn dal paramedrau gwreiddiol y rhwydwaith yn rewi i gadw unrhyw wybodaeth maen nhw'n ei chynnwys o hyfforddiant cyn ymarfer, ac yn unig yn addasu'r paramedrau adaptydd newydd hyn. Yn ein profion mewnol, rydym wedi gweld arwyddion da gan LoRA. Yn ogystal â'n galluogi i ffineiddio modelau mawr ar gyllidebau caled, mae modelau gyda haenau adaptydd wedi'u gorsaf hefyd yn cadw llawer o'u gallu i wneud ychydig o fanylion tra'n addasu i'r maes targed. Mae'n bwysig nodi, mae integreiddio adaptyddion isel-rhestr i fframweithiau eraill yn syml, gan y gallwn yn syml newid haenau llinell presennol gyda haenau llinell + adaptydd fel y bo angen.
Symud Ymlaen
I roi blas ar y math o welliannau rydym wedi'u gweld yn ein hymchwil, isod rydym yn rhannu dewis bach o genedlaethau o fodelau a hyfforddwyd gyda dulliau ffineiddio gwahanol. Cafodd yr eitemau hyn eu cynhyrchu i gyd gan ddefnyddio'r un tair token rhaglen sy'n ymwneud â darparu gofal nyrsio: roedd y cyntaf yn canolbwyntio ar flaenoriaethu anghenion cleifion lluosog a'r ail ar gymryd camau mewn lle tîm.
Eitem #1: Mae nyrs yn asesu cleifion sydd wedi'u cynllunio ar gyfer llawdriniaeth allanol. Pa un o'r cleifion canlynol y bydd y nyrs yn ei gwerthuso nesaf? (A) Cleifion gyda diabetes math 1 (B) Cleifion gyda pancreatitis acíwt (C) Cleifion sydd angen therapi gwrthfiotig intravenws (D) Cleifion gyda chlefyd Crohn Eitem #2: Mae cleifion wedi'i derbyn i'r ysbyty gyda'r diagnosis o fethiant y galon. Mae mam y cleifion yn gwrthod triniaeth. Pa un o'r camau canlynol y dylai'r nyrs ei chymryd? (A) Hysbysu'r darparwr am y sefyllfa. (B) Gwiriwch restr feddyginiaeth y claf. (C) Gwiriwch gartref meddygol y cleifion. (D) Hysbysu meddyg y cleifion am gyflwr y cleifion.
Eitem #3: Mae nyrs yn gwerthuso cleifion ar yr adran pediatreg. Mae'r cleifion wedi'u cynllunio ar gyfer gwaith diagnostig, gan gynnwys radiograff y frest. Pa un o'r cleifion canlynol y dylai'r nyrs ei chynllunio i'w gwerthuso nesaf? (A) Plentyn sydd â pneumonia ac sy'n profi twymyn (B) Plentyn sydd â rash ac nad yw'n ymateb i feddyginiaeth (C) Plentyn sydd â thwymyn a chynhesrwydd >100.4 (D) Plentyn sydd â thwymyn a rash Eitem #4: Mae cleifion gyda methiant renal yn yr ysbyty ac wedi'u cynllunio i gael trawsblaniad renal. Mae'r cleifion yn credu'n gryf bod y llawdriniaethwr trawsblaniad yn annhechnegol. Mae'r cleifion yn gwrthod gadael i feddyg o ysbyty arall wneud y trawsblaniad. Pa un o'r camau canlynol y dylai'r nyrs i'r gweinyddwr ei chymryd? (A) Cymryd datganiad gan y cleifion bod y llawdriniaethwr trawsblaniad yn fedrus a'i roi i'r llawdriniaethwr trawsblaniad. (B) Gofyn i'r cleifion am ddatganiad llofnodedig i gefnogi ei honiad. (C) Cysylltu â'r llawdriniaethwr trawsblaniad a darganfod pam nad yw'r cleifion yn caniatáu i'r llawdriniaethwr o ysbyty arall wneud y trawsblaniad. (D) Hysbysu'r llawdriniaethwr trawsblaniad bod y cleifion yn gwrthod y trawsblaniad.
Eitem #5: Mae nyrs yn cynllunio i benodi cleifion i wahanol orsafoedd ar y gwefan. Pa un o'r cleifion canlynol y dylai'r nyrs ei benodi i'r orsaf benodol agosaf at orsaf y nyrsys? (A) Cleifion sydd â diagnosis amheuaeth o emboli ysgyfaint ac sydd angen sgrin CT (B) Cleifion sydd angen cymorth gyda symudiad bowels (C) Cleifion sydd â chymhlethdod brys ar gyfer radiograff y frest (D) Cleifion sydd angen radiograff y frest oherwydd ei fod yn cael peswch Eitem #6: Mae LPN yn gofalu am gleifion sydd â chatheter wrthi'n cadw a'i gofyn i'r nyrs ei helpu i lanhau'r cath. Pa un o'r camau canlynol y dylai'r nyrs ei chymryd? (A) Esbonio i'r cleifion y bydd angen iddi ddarparu'r ateb glanhau a bydd angen iddi gael caniatâd y cleifion ar gyfer y weithdrefn. (B) Gofyn i'r LPN am gymorth. (C) Cynnig i helpu'r cleifion lanhau'r cath. (D) Sicrhau i'r LPN y bydd y nyrs yn ei helpu.
Gallwn arsylwi, er bod yr eitemau gorau o'r model sylfaenol yn gyffredinol yn fflwff iaith a chydnaws yn rhesymegol, maent yn tueddu i fod yn islawer (fel yn #1) neu'n galw am ychydig iawn o wybodaeth am y maes nyrsio (fel yn #3). O'i gymharu â'r eitemau sylfaenol, mae eitemau o'r model ffineiddio rhaglen a'r model adaptydd isel-rhestr yn cynnwys mwy o fanylion yn eu symudiadau, eu dwylo, a'u dewisiadau. Mae'r pwnc yn berthnasol i'r maes, gan alw am gwybodaeth benodol yn rheolaeth gofal nyrsio yn hytrach na dibynnu ar wybodaeth gefndirol yn unig. Yn ogystal, mae'r eitemau o'r model adaptydd isel-rhestr yn cael fformat mwy cyson. Er enghraifft, mae'r eitemau yn cyfeirio'n gyson at y "cleifion" yn hytrach na'r "cleifion", yn unol â'r iaith a fyddai'n ymddangos yn yr asesiadau (cymharwch #5 ag #1 a #3). Mae hefyd yn dilyn yn llwyddiannus gyfeiriadau at nifer o unigolion o fewn senario (cymharwch #6 ag #4).
Gall gwelliannau i gwmpas y maes, cysondeb steil, a chydnawsedd rhesymegol arwain at welliannau sylweddol yn ddefnyddioldeb modelau iaith niwral. Dyma ddechrau yn unig: wrth i'r dechnoleg ddatblygu, bydd mwy o ddulliau'n cael eu darganfod i greu modelau iaith naturiol wedi'u cyffroi, rheoledig ar raddfa. Ac wrth i'r dulliau hynny gael eu darganfod, byddwn yn parhau i gynnwys y gorau o academa, diwydiant, a ymchwil annibynnol yn ein cynnyrch Finetune.
Diolch yn ddiwylliannol i Nick Koprowicz, Jesse Hamer, Saad Khan, a Ogden Morse am ddarparu adborth caredig, defnyddiol yn y datblygiad o'r blog hwn.
Cyfeiriadau
Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). Lora: Addasiad isel-rhestr o fodelau iaith mawr. arXiv preprint arXiv:2106.09685.
Lester, B., Al-Rfou, R., & Constant, N. (2021). Y grym o raddfa ar gyfer ffineiddio rhaglen effeithlon. arXiv preprint arXiv:2104.08691.