Model Bahasa Besar dan Pembangunan Penilaian

Published on Januari 20,2023

Shutterstock 2520071063

Oleh Charles Foster dan Jesse Hamer

Pengenalan

Sejak 2021, di Finetune kami telah melihat potensi Model Bahasa Besar (LLM) untuk mengubah cara profesional dalam pendidikan & penilaian bekerja. Kecepatan kemajuan yang dramatis di ruang ini telah berarti bahwa konsep dapat beralih dari alat penelitian satu minggu, menjadi produk viral di minggu berikutnya.

Oleh karena itu, tidak mengherankan untuk melihat betapa antusiasnya respon terhadap ChatGPT: dalam satu demo, semua orang memahami bahwa kita berdiri di ambang sesuatu yang besar. Mengingat kegembiraan dan ketidakpastian saat ini, seseorang mungkin bertanya: bagaimana Finetune Generate yang dipatenkan cocok dengan lanskap ini? Jika saya bisa meminta chatbot generik untuk melakukan penulisan saya, mengapa saya memerlukan yang lain?

Kami suka menganggap Model Bahasa Besar sebagai model dasar: sistem AI yang pelatihan luas dan beragamnya memungkinkan mereka bertindak sebagai landasan untuk berbagai kasus penggunaan. Beberapa organisasi termasuk Anthropic, EleutherAI, dan OpenAI (pengembang ChatGPT) melatih model raksasa ini dan membuatnya tersedia untuk digunakan oleh orang lain. Namun, model itu sendiri hanyalah lapisan dasar: mereka memiliki banyak potensi yang jauh lebih besar ketika dijalin ke dalam sistem yang lebih besar, disesuaikan untuk aplikasi tertentu. Sama seperti teknologi tujuan umum lainnya seperti Web, mungkin diperlukan satu generasi peneliti dan pengusaha untuk membangun sistem di atasnya, agar dapat merealisasikan potensinya. Dalam sebuah wawancara dengan Ezra Klein, CEO OpenAI Sam Altman mengungkapkan sentimen serupa:

Apa yang saya pikir kami tidak terbaik di dunia, dan kami tidak ingin benar-benar mengalihkan perhatian kami [dari], adalah semua produk luar biasa yang akan dibangun di atas [model bahasa besar]. Dan jadi kami memikirkan peran kami adalah untuk mencari tahu bagaimana membangun sistem A.I. yang paling mampu di dunia dan kemudian membuatnya tersedia untuk siapa saja yang mengikuti aturan kami untuk membangun semua sistem ini di atasnya.

Altman, 2023

Dengan menggabungkan LLM dengan teknologi lebih tradisional seperti basis pengetahuan dan antarmuka manusia-dalam-loop, kami dapat menciptakan tumpukan teknologi yang matang, atau aplikasi generatif, yang memungkinkan kami untuk melepaskan kemampuan LLM untuk menciptakan alat cerdas di berbagai area aplikasi. Generate dan ChatGPT adalah dua contoh awal dari ini.

Dengan kerangka kerja ini dalam pikiran, mari kita bandingkan ChatGPT dan Finetune Generate sebagai aplikasi generatif yang dibangun di atas GPT-3, dari sudut pandang pengembangan item.

Tujuan Desain

Baik ChatGPT maupun Finetune Generate dimaksudkan untuk memberikan antarmuka yang lebih intuitif bagi pengguna untuk berinteraksi dengan model generatif seperti GPT-3. Di luar itu, kedua aplikasi ini cukup berbeda. OpenAI memiliki misi untuk membangun sistem AI yang aman dan umum untuk semua, dan membangun ChatGPT untuk memberikan publik umum rasa kemampuan model bahasa dengan bahasa alami, dan untuk berfungsi sebagai kotak pasir bagi pembangun untuk menguji ide-ide baru.

Di Finetune, meskipun kami terlibat dengan komunitas penelitian yang lebih luas mengenai inovasi model bahasa (lihat kolaborasi kami dengan OpenAI mengenai perbaikan pencarian semantik), tujuan kami dengan Generate tidak terutama untuk membangun sistem tujuan umum baru, tetapi lebih untuk membangun alat terbaik untuk penulisan item yang dibantu AI. Itulah mengapa Generate dibangun khusus dengan penulis item dalam pikiran, sesuai dengan praktik terbaik, bahasa, dan alur kerja mereka. Semua batasan desain kami didasarkan pada keterlibatan dengan berbagai macam pengguna awal. Setiap model Generate yang kami bangun dirancang untuk mencerminkan struktur unik dari setiap penilaian, dan memberikan pengguna kontrol spesifik yang diperlukan untuk tugas mereka. Selain itu, seluruh tim penulis item dapat berkolaborasi dalam mengembangkan item menggunakan Generate, dengan fungsi bawaan untuk memungkinkan manajemen izin dan ekspor terstruktur ke dalam format seperti QTI.

Spesifisitas

Model bahasa besar melewati fase pelatihan awal yang disebut pra-pelatihan, di mana dalam satu sesi panjang mereka belajar dari jutaan halaman dari web, buku, dan sumber lainnya. Karena betapa mahalnya perhitungan belajar dari input tersebut, pengetahuan mereka biasanya tetap tetap setelah itu. Karena itu adalah lapisan dialog tipis di atas GPT-3, ChatGPT juga memiliki basis pengetahuan tetap yang tidak dapat diubah. Jika, misalnya, seorang teknisi ingin mendapatkan bantuan mengenai sistem proprietary tertentu, model seperti itu mungkin tidak akan bermanfaat bagi mereka, karena model tersebut tidak memiliki cara untuk mempelajari materi baru.

Mitra Finetune mencakup dari K-12 hingga pendidikan tinggi hingga lisensi & sertifikasi, dan mencakup beragam domain.

Oleh karena itu, sangat penting bagi kami bahwa model yang kami bangun untuk mereka harus belajar dari konten unik mereka—meskipun konten tersebut sangat khusus atau baru—dan harus dapat diperbarui dengan materi baru saat tersedia.

Untuk membuat ini mungkin, tim R&D AI kami telah menyempurnakan metode kami sendiri untuk secara efisien menggabungkan pengetahuan baru ke dalam model bahasa dan menargetkannya pada pedoman spesifik dari sebuah penilaian. Selain itu, Generate belajar secara dinamis seiring waktu untuk lebih menargetkan item pada konten dan gaya tugas masing-masing pelanggan. Sepanjang tahun ini kami berencana untuk meluncurkan beberapa fitur lagi yang akan terus meningkatkan kontrol dan adaptabilitas model kami, dari penargetan frasa kunci hingga kontrol yang halus atas kompleksitas kognitif dan seterusnya.

Keamanan

Sebagai demo eksperimental, ChatGPT dimaksudkan untuk mendapatkan umpan balik tentang bagaimana orang berinteraksi dengan model bahasa, sehingga OpenAI dapat meningkatkan teknologi dasar yang mendukung API-nya. Karena ini, ketika pengguna berbicara dengan ChatGPT, interaksi tersebut disimpan dan mungkin masuk ke dalam dataset pelatihan masa depan, untuk membantu melatih generasi model berikutnya. Itu berarti jika Anda mengembangkan item penilaian dengan ChatGPT, model-model di masa depan mungkin mengetahui tentangnya atau telah menghafalnya, yang berpotensi mengekspos item dan gaya item Anda dengan cara yang tidak Anda maksudkan, yang berisiko pada keamanannya.

Keamanan adalah perhatian utama dalam pengembangan item.

Generate menjaga item tetap aman, terpisah, dengan setiap pelanggan hanya mengakses model mereka sendiri.

Bahkan dalam satu pelanggan, pengguna dapat dibatasi untuk hanya mengakses item yang dihasilkan tertentu. Dengan Generate, pelanggan selalu menjadi pemilik item yang mereka hasilkan, tidak peduli apakah mereka hanya mencoba model awal atau telah mengadopsi alat tersebut secara besar-besaran.

Kepercayaan & Dukungan

Banyak yang membuat penggunaan LLM secara produktif sulit adalah bahwa itu adalah secara dasar acak: tanyakan pertanyaan yang sama dua kali dan Anda akan mendapatkan dua jawaban yang berbeda. Ini bertentangan dengan apa yang biasanya kami harapkan dari alat kami: kami mengandalkannya untuk dapat diandalkan. Ini menyebabkan salah satu masalah paling persisten dengan ChatGPT dan alat LLM lainnya, yaitu sulit untuk mempercayai keluaran mereka ketika Anda tidak tahu mengapa keluaran tersebut dipilih. Apakah itu berdasarkan fakta yang diingat model, atau kebohongan yang diciptakan model, atau bahkan plagiat dari sumber yang tidak terlihat?

Standar untuk kepercayaan dalam pendidikan & penilaian sangat tinggi, jauh lebih tinggi daripada untuk chatbot kasual. Pelanggan ingin tahu bahwa item yang mereka hasilkan melalui Generate benar-benar baru, berdasarkan materi mereka sendiri, dan valid.

Tim Pengukuran dan R&D AI kami bekerja dengan setiap pelanggan untuk menciptakan model yang disesuaikan dengan kebutuhan mereka, dan untuk menggabungkan umpan balik mereka ke dalam perbaikan model yang sedang berlangsung.

Kami juga melakukan pemeriksaan manual & otomatis untuk memverifikasi bahwa saran yang dihasilkan Generate sesuai dengan spesifikasi pelanggan. Kami akan segera meluncurkan fitur baru yang akan memungkinkan pengguna untuk dengan mudah melakukan cross-reference item yang dihasilkan dengan materi referensi, sehingga mereka dapat memiliki jaminan segera bahwa item yang mereka hasilkan didasarkan pada fakta.

Kesimpulan

Ini adalah waktu yang menarik di mana ratusan aplikasi generatif akan dibangun, semuanya mengejar berbagai kemungkinan kasus penggunaan untuk LLM. Saat Anda menjelajahi mereka sebagai seseorang yang sangat peduli tentang kualitas penilaian dalam pendidikan, sertifikasi, dan lisensi, kami merekomendasikan untuk selalu mengingat pertanyaan-pertanyaan berikut:

  • Siapa yang dirancang aplikasi ini?
  • Apakah model yang digunakan aplikasi ini dilatih khusus untuk apa yang dibutuhkan organisasi saya, termasuk kebutuhan keamanan kami?
  • Bagaimana data yang saya berikan akan digunakan?
  • Apakah saya ingin menginvestasikan waktu dan uang untuk membuat model tujuan umum yang mentah dapat digunakan (misalnya, UI yang sesuai) dan dipercaya oleh Ahli Materi Subjek (SME) kami untuk diintegrasikan ke dalam alur kerja dan kasus penggunaan yang berisiko tinggi?

Kami masih berada di hari-hari awal teknologi yang sangat mengesankan ini, tetapi sudah jelas sejauh mana kemampuan aplikasi generatif akan memungkinkan di berbagai industri. Begitu juga suara peringatan yang diungkapkan oleh Gary Marcus dari NYU dan lainnya.

Di Finetune, kami sangat bersemangat untuk terus menampilkan lebih banyak fitur di tahun ketiga kami yang akan membuat Generate lebih performa, lebih handal, dan lebih berguna di seluruh lanskap pembelajaran dan penilaian.

Diperbarui 29 April 2025