Menala Model AI untuk Penghasilan Item

Published on November 19,2021

Tuning AI Models for Assessment Content Generation

Oleh Charles Foster

Di Finetune, kami sedang membangun solusi AI untuk mengatasi beberapa masalah paling mencabar dalam teknologi pendidikan, termasuk penghasilan kandungan automatik dan klasifikasi serta cadangan sumber pembelajaran yang dikuasakan oleh AI. Oleh kerana subjek yang perlu ditangani oleh alat kami merangkumi dari K-12 hingga pembangunan tenaga kerja, kami melabur banyak dalam kaedah yang membolehkan kami mengembangkan skala luas dan mendalam tentang apa yang dapat diliputi model kami. Komponen utama pendekatan ini adalah kaedah fleksibel untuk melatih jaringan neural khusus di domain di mana model umum tidak mencukupi. Dalam catatan blog ini, saya ingin berkongsi sedikit tentang perjalanan kami menjelajahi kaedah-kaedah ini.

Penyetelan Halus

Penyetelan halus tipikal model bahasa neural melibatkan pengoptimuman semua parameter yang boleh dilatih secara serentak, yang boleh mencapai bilangan yang sangat banyak untuk rangkaian seperti GPT-J. Pada skala seperti ini, proses penyetelan halus dan inferens adalah tidak trivial, menjadikan penyebaran secara meluas agak sukar. Dalam penyelidikan kami sendiri, beberapa isu utama tampak paling besar:

  • Hanya menjalankan model transformer ini sudah menekan batas memori GPU (VRAM), dan semasa penyetelan halus, terdapat hubungan langsung antara jumlah parameter yang dioptimumkan dan jumlah memori tambahan yang digunakan.
  • Dengan mengubah semua parameter dalam rangkaian, aliran maklumat yang dipelajari semasa pra-pelatihan mungkin terganggu, mengakibatkan pelupaan dan kehilangan keupayaan few-shot.
  • Menyediakan model multi-gigabyte yang disesuaikan untuk setiap kes penggunaan akan mencipta latensi dan kos yang tidak dapat diterima.

Kekhawatiran yang digabungkan ini mendorong kami untuk menjelajahi kaedah lain dari literatur terkini untuk menyetel model bahasa neural kami. Untungnya, dalam tahun lalu, sfera penyelidikan pemprosesan bahasa semula jadi telah mengembangkan pelbagai kaedah untuk mengurangkan kos menyesuaikan perilaku model bahasa yang telah dilatih sebelumnya.

Penyetelan Prompt

Pendekatan asal yang kami ikuti dipanggil Penyetelan Prompt atau Pemicu Lembut (Lester et al. 2021). Dalam kaedah ini, parameter rangkaian dari pra-pelatihan ditahan beku. Sebaliknya, kami menambah sejumlah kecil vektor penyematan yang boleh dipelajari (biasanya 10 hingga 20) di depan token prompt input, dan menyetel penyematan ini dengan objektif pemodelan bahasa biasa pada dataset penyetelan halus. Penyematan ini tidak mewakili token bahasa; kami boleh menganggapnya sebagai penyimpanan konteks yang padat yang boleh dirujuk oleh rangkaian—melalui mekanisme perhatian—semasa ia membuat ramalan tentang token dalam urutan.


Penyetelan prompt menambah hanya sedikit kos masa jalan kepada model, kerana pemicu lembut berada dalam julat kilobyte dan boleh diproses melalui rangkaian secara selari. Ciri-ciri ini menjadikannya menarik untuk melayani banyak pengguna serentak, seperti yang ditunjukkan oleh penyebaran terkini teknik ini dalam cerita AI. Walau bagaimanapun, mengintegrasikan pemicu lembut ke dalam kerangka kerja popular seperti transformers adalah kompleks, kerana antara muka terutamanya direka untuk beroperasi pada urutan indeks token dan bukannya vektor padat. Selain itu, apabila lebih banyak konteks ditambah antara pemicu lembut dan penghasilan, kami mula melihat ketidakseimbangan antara kekuatan pengkondisian pada pemicu lembut dan konteks token. Mempertahankan keupayaan untuk menambah fleksibel ratusan token konteks pada waktu jalan adalah penting bagi kami, kerana ia menyediakan tuas kawalan yang lebih terperinci dalam proses pengarang item. Jika kami ingin membimbing model untuk memberi tumpuan pada kandungan dari halaman tertentu buku teks, atau untuk mengarang item pemahaman bacaan, atau untuk memberikan contoh few-shot, pengkonteksan jangka panjang adalah penting.

Penyesuai Peringkat Rendah (LoRA)

Kemudian kami beralih ke kaedah yang dipanggil LoRA atau Penyesuai Peringkat Rendah (Hu et al. 2021). Teknik ini dibangunkan oleh penyelidik di Microsoft yang bekerja pada model bersaiz GPT-3, dan membina berdasarkan pendekatan penyesuai yang lebih awal. Jika kita berfikir tentang transformer sebagai memperhalus keadaan laten tokennya secara progresif dengan setiap lapisan residual, konsep penyesuai adalah untuk menambah delta kecil yang bergantung kepada input (dihasilkan kepada no-op) kepada keadaan laten tersebut pada lapisan tertentu. Dorongan lembut ini kemudian dapat memodulasi perilakunya ke bawah dengan, contohnya, menekankan bahagian input yang relevan dengan tugas.


Penyesuai peringkat rendah adalah sejenis penyesuai yang menyasarkan subruang peringkat rendah, yang mengurangkan jumlah parameter baru yang perlu kami latih (dari D2 kepada 2 × D × r, di mana D berada dalam ribuan). Seperti dengan pemicu lembut, kami menahan parameter asal rangkaian beku untuk memelihara apa sahaja pengetahuan yang mereka miliki dari pra-pelatihan, dan hanya menyesuaikan parameter penyesuai baru ini. Dalam ujian dalaman kami, kami telah melihat petunjuk yang baik dari LoRA. Selain membolehkan kami menyetel model besar pada belanjawan perkakasan yang kecil, model dengan lapisan penyesuai yang disisipkan juga mengekalkan banyak keupayaan few-shot asalnya sambil masih menyesuaikan diri dengan domain sasaran. Perlu diingat, mengintegrasikan penyesuai peringkat rendah ke dalam kerangka lain adalah mudah, kerana kami boleh menukar lapisan linear yang ada dengan lapisan linear + penyesuai seperti yang diperlukan.

Melangkah ke Hadapan

Untuk memberikan gambaran tentang jenis penambahbaikan yang telah kami lihat dalam penjelajahan kami, di bawah ini kami kongsikan pilihan kecil generasi dari model yang dilatih dengan pendekatan penyetelan yang berbeza. Item-item ini semuanya dihasilkan menggunakan tiga prompt input yang sama yang berkaitan dengan penyampaian penjagaan kejururawatan: yang pertama memfokuskan pada memprioritaskan keperluan beberapa pelanggan dan yang kedua pada mengambil tindakan dalam suasana pasukan.

Item #1: Seorang jururawat sedang menilai seorang pelanggan yang dijadualkan untuk pembedahan pesakit luar. Antara pesakit berikut, yang manakah akan dinilai oleh jururawat seterusnya? (A) Seorang pesakit dengan diabetes jenis 1 (B) Seorang pesakit dengan pankreatitis akut (C) Seorang pesakit yang memerlukan terapi antibiotik intravena (D) Seorang pesakit dengan penyakit Crohn Item #2: Seorang pelanggan dimasukkan ke hospital dengan diagnosis gagal jantung kongestif. Ibu pelanggan menolak rawatan. Antara tindakan berikut, apakah yang harus diambil oleh jururawat? (A) Beritahu penyedia tentang situasi tersebut. (B) Semak senarai ubat pesakit. (C) Semak carta perubatan pelanggan. (D) Beritahu doktor pelanggan tentang keadaan pelanggan.

Item #3: Seorang jururawat sedang menilai seorang pesakit di unit pediatrik. Pelanggan dijadualkan untuk kerja diagnostik, termasuk radiografi dada. Antara pesakit berikut, apakah yang harus dirancang untuk dinilai oleh jururawat seterusnya? (A) Seorang kanak-kanak yang mempunyai pneumonia dan mengalami demam (B) Seorang kanak-kanak yang mempunyai ruam dan tidak memberi respons terhadap ubat (C) Seorang kanak-kanak yang mempunyai demam dan suhu >100.4 (D) Seorang kanak-kanak yang mempunyai demam dan ruam Item #4: Seorang pelanggan dengan kegagalan buah pinggang sedang di hospital dan dijadualkan untuk menjalani pemindahan buah pinggang. Pelanggan mempunyai keyakinan kuat bahawa pakar bedah pemindahan itu tidak kompeten. Pelanggan menolak untuk membenarkan doktor dari hospital lain melakukan pemindahan. Antara tindakan berikut, apakah yang harus diambil oleh jururawat yang bertugas? (A) Ambil kenyataan dari pelanggan bahawa pakar bedah pemindahan itu kompeten dan serahkan kepada pakar bedah pemindahan. (B) Tanya pelanggan untuk kenyataan bertandatangan untuk menyokong dakwaannya. (C) Hubungi pakar bedah pemindahan dan cari tahu mengapa pelanggan menolak untuk membenarkan pakar bedah dari hospital lain melakukan pemindahan. (D) Beritahu pakar bedah pemindahan bahawa pelanggan menolak pemindahan.

Item #5: Seorang jururawat merancang untuk menetapkan pelanggan ke pelbagai stesen katil. Antara pelanggan berikut, siapakah yang harus ditetapkan oleh jururawat ke stesen katil terdekat dengan stesen jururawat? (A) Seorang pelanggan yang mempunyai diagnosis yang disyaki emboli paru dan memerlukan imbasan tomografi terkomputer (CT) (B) Seorang pelanggan yang memerlukan bantuan dengan pergerakan usus (C) Seorang pelanggan yang mempunyai indikasi kecemasan untuk X-ray dada (D) Seorang pelanggan yang memerlukan X-ray dada kerana dia mempunyai batuk Item #6: Seorang LPN sedang menjaga seorang pelanggan dengan kateter urin yang tinggal dan meminta jururawat untuk membantunya membersihkan kateter. Antara tindakan berikut, apakah yang harus diambil oleh jururawat? (A) Terangkan kepada pelanggan bahawa dia perlu menyediakan larutan pembersih dan perlu mendapatkan persetujuan pelanggan untuk prosedur tersebut. (B) Tanya LPN untuk bantuan. (C) Tawarkan untuk membantu pelanggan membersihkan kateter. (D) Yakin LPN bahawa jururawat akan membantunya.

Kami dapat melihat bahawa, walaupun item terbaik dari model asas adalah cukup fasih dan koheren secara logik, mereka cenderung kurang terhad (seperti dalam #1) atau memerlukan sedikit pengetahuan tentang domain kejururawatan (seperti dalam #3). Berbanding dengan item asas, item dari model penyetelan prompt dan penyesuai peringkat rendah mengandungi lebih banyak detail dalam rangsangan, batang, dan pilihan mereka. Subjeknya adalah relevan dengan domain, memerlukan pengetahuan khusus dalam pengurusan penjagaan kejururawatan dan bukan hanya bergantung pada pengetahuan latar belakang semata-mata. Selain itu, item dari model penyesuai peringkat rendah mempunyai bentuk yang lebih konsisten. Contohnya, item-item tersebut secara konsisten merujuk kepada “pelanggan” berbanding “pesakit”, sesuai dengan bahasa yang mungkin muncul dalam penilaian (bandingkan #5 dengan #1 dan #3). Ia juga berjaya mengikuti rujukan kepada pelbagai individu dalam satu senario (bandingkan #6 dengan #4).

Peningkatan dalam liputan domain, konsistensi gaya, dan koheren logik dapat diterjemahkan kepada peningkatan yang signifikan dalam kegunaan model bahasa neural. Ini hanyalah permulaan: apabila teknologi matang, lebih banyak kaedah akan ditemui untuk mencipta model bahasa semula jadi yang disesuaikan dan terkawal pada skala. Dan ketika kaedah-kaedah tersebut ditemui, kami akan terus menggabungkan yang terbaik dari akademik, industri, dan penyelidikan bebas ke dalam produk Finetune.

 

Terima kasih yang tulus kepada Nick Koprowicz, Jesse Hamer, Saad Khan, dan Ogden Morse kerana memberikan maklum balas yang baik dan membantu dalam perkembangan catatan blog ini.

 

Rujukan

Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). Lora: Penyesuaian peringkat rendah model bahasa besar. arXiv preprint arXiv:2106.09685.

Lester, B., Al-Rfou, R., & Constant, N. (2021). Kuasa skala untuk penyetelan prompt yang cekap parameter. arXiv preprint arXiv:2104.08691.