Model Bahasa Besar dan Pengembangan Penilaian

Pencarian

Hubungi Kami

Oleh Charles Foster dan Jesse Hamer

Pengantar

Sejak 2021, di Finetune kami telah melihat potensi dari Model Bahasa Besar (LLM) untuk mengubah cara para profesional di bidang pendidikan & penilaian bekerja. Kecepatan kemajuan yang dramatis di bidang ini berarti bahwa konsep dapat berpindah dari mainan penelitian satu minggu, menjadi produk viral di minggu berikutnya.

Oleh karena itu, tidaklah mengejutkan melihat betapa antusiasnya respons terhadap ChatGPT: dalam satu demo, semua orang memahami bahwa kita berada di ambang sesuatu yang hebat. Mengingat kegembiraan dan ketidakpastian saat ini, seseorang mungkin bertanya: bagaimana Finetune Generate yang dipatenkan cocok dalam lanskap ini? Jika saya bisa meminta chatbot generik untuk melakukan penulisan untuk saya, mengapa saya membutuhkan yang lain?

Kami suka berpikir tentang Model Bahasa Besar sebagai model dasar: sistem AI yang pelatihan yang luas dan beragam memungkinkan mereka bertindak sebagai fondasi untuk berbagai macam kasus penggunaan. Beberapa organisasi termasuk Anthropic, EleutherAI, dan OpenAI (pengembang ChatGPT) melatih model raksasa ini dan membuatnya tersedia untuk digunakan oleh orang lain. Namun, model itu sendiri hanyalah lapisan dasar: mereka memiliki banyak potensi yang lebih besar ketika dijalin ke dalam sistem yang lebih besar, disesuaikan untuk aplikasi tertentu. Sama seperti teknologi umum lainnya seperti Web, mungkin dibutuhkan seluruh generasi peneliti dan pengusaha untuk membangun sistem di atasnya, agar potensi tersebut dapat terwujud. Dalam sebuah wawancara dengan Ezra Klein, CEO OpenAI Sam Altman menyampaikan sentimen serupa:

Yang saya pikir kami tidak terbaik di dunia, dan kami juga tidak ingin benar-benar mengalihkan perhatian kami [dari], adalah semua produk luar biasa yang akan dibangun di atas [model bahasa besar]. Jadi kami memikirkan peran kami untuk mencari tahu bagaimana membangun sistem A.I. yang paling mampu di dunia dan kemudian membuatnya tersedia bagi siapa saja yang mengikuti aturan kami untuk membangun semua sistem ini di atasnya.
Altman, 2023

Dengan menggabungkan LLM dengan teknologi yang lebih tradisional seperti basis pengetahuan dan antarmuka manusia-dalam-loop, kami dapat menciptakan tumpukan teknologi yang matang, atau aplikasi generatif, yang memungkinkan kami melepaskan kemampuan LLM untuk menciptakan alat cerdas di berbagai bidang aplikasi. Generate dan ChatGPT adalah dua contoh awal dari ini.

Dengan kerangka kerja ini dalam pikiran, mari kita bandingkan ChatGPT dan Finetune Generate sebagai aplikasi generatif yang dibangun di atas GPT-3, dari sudut pandang pengembangan item.

Tujuan Desain

Baik ChatGPT maupun Finetune Generate dimaksudkan untuk menyediakan antarmuka yang lebih intuitif bagi pengguna untuk berinteraksi dengan model generatif seperti GPT-3. Selain itu, kedua aplikasi ini cukup berbeda. OpenAI memiliki misi untuk membangun sistem AI yang aman dan umum untuk semua, dan membangun ChatGPT untuk memberikan kepada publik umum gambaran tentang apa yang dapat dilakukan model bahasa dengan bahasa alami, dan untuk berfungsi sebagai kotak pasir bagi para pembangun untuk menguji ide-ide baru.

Di Finetune, meskipun kami terlibat dengan komunitas penelitian yang lebih luas tentang inovasi model bahasa (lihat kolaborasi kami dengan OpenAI tentang perbaikan pencarian semantik), tujuan kami dengan Generate tidak terutama untuk membangun sistem umum baru, tetapi lebih untuk membangun alat terbaik yang mungkin untuk penulisan item yang dibantu AI. Itulah sebabnya Generate dibangun khusus dengan penulis item dalam pikiran, berdasarkan praktik terbaik, bahasa, dan alur kerja mereka. Semua batasan desain kami didasarkan pada keterlibatan dengan berbagai jenis pengadopsi awal. Setiap model Generate yang kami bangun dirancang untuk mencerminkan struktur unik dari setiap penilaian, dan memberikan kontrol spesifik yang diperlukan pengguna untuk tugas mereka. Selain itu, seluruh tim penulis item dapat berkolaborasi dalam mengembangkan item menggunakan Generate, dengan fungsionalitas bawaan yang memungkinkan manajemen izin dan ekspor terstruktur ke dalam format seperti QTI.

Spesifisitas

Model bahasa besar menjalani fase pelatihan awal yang disebut pretraining, di mana dalam satu sesi panjang mereka belajar dari jutaan halaman dari web, buku, dan sumber lainnya. Karena betapa mahalnya perhitungan pembelajaran dari masukan tersebut, pengetahuan mereka biasanya tetap tetap setelahnya. Karena ini adalah pembungkus dialog tipis di atas GPT-3, ChatGPT juga memiliki basis pengetahuan tetap yang tidak dapat diubah. Jika, katakanlah, seorang teknisi ingin bantuan mengenai beberapa sistem proprietari, model semacam itu mungkin tidak akan membantu mereka, karena model tersebut tidak memiliki cara untuk mempelajari materi baru.

Mitra Finetune mencakup seluruh spektrum dari K-12 hingga pendidikan tinggi hingga lisensi & sertifikasi, dan mencakup berbagai domain.

Oleh karena itu, sangat penting bagi kami bahwa model yang kami bangun untuk mereka harus belajar dari konten unik mereka—meskipun konten tersebut sangat khusus atau baru—dan harus dapat diperbarui dengan materi baru saat tersedia.

Untuk membuat ini mungkin, tim R&D AI kami telah menyempurnakan metode kami sendiri untuk secara efisien menggabungkan pengetahuan baru ke dalam model bahasa dan menargetkannya sesuai dengan pedoman spesifik dari suatu penilaian. Selain itu, Generate belajar secara dinamis dari waktu ke waktu untuk lebih menargetkan item ke konten dan gaya spesifik dari setiap tugas pelanggan. Sepanjang tahun ini kami berencana untuk meluncurkan beberapa fitur lagi yang akan terus meningkatkan kemampuan kontrol dan adaptabilitas model kami, mulai dari penargetan frasa kunci hingga kontrol yang lebih rinci atas kompleksitas kognitif dan seterusnya.

Keamanan

Sebagai demo eksperimental, ChatGPT dimaksudkan untuk mendapatkan umpan balik tentang bagaimana orang berinteraksi dengan model bahasa, sehingga OpenAI dapat meningkatkan teknologi dasar yang mendukung API-nya. Karena ini, ketika pengguna berbicara dengan ChatGPT, interaksi tersebut disimpan dan mungkin masuk ke dalam dataset pelatihan masa depan, untuk membantu melatih generasi model berikutnya. Itu berarti jika Anda mengembangkan item penilaian dengan ChatGPT, model-model masa depan mungkin mengetahui tentangnya atau telah menghafalnya, yang berpotensi mengekspos item dan gaya item Anda dengan cara yang tidak Anda inginkan, berisiko terhadap keamanannya.

Keamanan adalah perhatian utama dalam pengembangan item.

Generate menjaga item tetap aman, terisolasi, dengan setiap pelanggan hanya mengakses model mereka sendiri.

Bahkan dalam satu pelanggan, pengguna dapat dibatasi untuk hanya mengakses item yang dihasilkan tertentu. Dengan Generate, pelanggan selalu menjadi pemilik dari item apa pun yang mereka hasilkan, tidak peduli apakah mereka hanya mencoba model awal atau telah mengadopsi alat tersebut secara besar-besaran.

Kepercayaan & Dukungan

Banyak hal yang membuat penggunaan produktif LLM sulit adalah bahwa itu secara fundamental acak: tanyakan pertanyaan yang sama dua kali dan ia akan memberikan dua jawaban yang berbeda. Ini bertentangan dengan apa yang biasanya kami harapkan dari alat kami: kami mengandalkan mereka untuk dapat diandalkan. Ini mengarah pada salah satu masalah paling persisten dengan ChatGPT dan alat LLM lainnya, yaitu sulit untuk mempercayai keluaran mereka ketika Anda tidak tahu mengapa keluaran tersebut dipilih. Apakah itu berdasarkan fakta yang diingat model, atau kebohongan yang dibuat model, atau bahkan dijiplak dari beberapa sumber yang tidak terlihat?

Standar untuk kepercayaan dalam pendidikan & penilaian sangat tinggi, jauh lebih tinggi daripada untuk chatbot kasual. Pelanggan ingin tahu bahwa item yang mereka hasilkan melalui Generate benar-benar baru, berdasarkan materi mereka sendiri, dan valid.

Tim Pengukuran dan R&D AI kami bekerja dengan setiap pelanggan untuk membuat model yang disesuaikan dengan kebutuhan mereka, dan untuk menggabungkan umpan balik mereka ke dalam perbaikan model yang sedang berlangsung.

Kami juga melakukan pemeriksaan manual & otomatis untuk memverifikasi bahwa saran yang diajukan Generate sesuai dengan spesifikasi pelanggan. Kami segera akan meluncurkan fitur baru yang akan memungkinkan pengguna untuk dengan mudah merujuk silang item yang dihasilkan dengan bahan referensi, sehingga mereka dapat memiliki jaminan langsung bahwa item yang mereka hasilkan memiliki dasar yang faktual.

Kesimpulan

Ini adalah waktu yang menarik di mana ratusan aplikasi generatif akan dibangun, semua mengejar berbagai potensi kasus penggunaan untuk LLM. Saat Anda menjelajahi mereka sebagai seseorang yang sangat peduli tentang kualitas penilaian dalam pendidikan, sertifikasi, dan lisensi, kami merekomendasikan untuk selalu mengingat pertanyaan-pertanyaan berikut:

Siapa yang dirancang untuk aplikasi ini?
Apakah model yang digunakan aplikasi ini dilatih khusus untuk apa yang dibutuhkan organisasi saya, termasuk kebutuhan keamanan kami?
Bagaimana data yang saya berikan akan digunakan?
Apakah saya ingin menginvestasikan waktu dan uang untuk membuat model umum mentah dapat digunakan (misalnya UI yang sesuai) dan dipercaya oleh Pakar Materi Subjek (SME) kami untuk diintegrasikan ke dalam alur kerja dan kasus penggunaan dengan taruhan tinggi kami?

Kami masih berada di awal teknologi yang sangat mengesankan ini, tetapi sudah jelas sejauh mana kemampuan yang akan diizinkan oleh aplikasi generatif di berbagai industri. Suara peringatan yang diungkapkan oleh Gary Marcus dari NYU dan lainnya juga semakin jelas.

Di Finetune kami sangat bersemangat untuk terus menunjukkan lebih banyak fitur di tahun ketiga kami yang akan membuat Generate bahkan lebih berkinerja, bahkan lebih dapat diandalkan, dan bahkan lebih membantu di seluruh lanskap pembelajaran dan penilaian.

Diperbarui 29 April 2025

Temukan Ujian Anda

Sebelum Ujian Anda

Akomodasi

Pada Hari Ujian

Setelah Ujian Anda

Pertanyaan yang Sering Diajukan

Penutupan Pusat Uji

Pengembangan Penilaian

Pengiriman Global

Pengalaman Kandidat

Pertumbuhan Program

Keamanan

Menyetel AI

Sumber Daya Klien

Pengembangan Ujian AI

Katalogisasi Konten AI

Pengembangan Keterampilan VR

Pengiriman di Pusat

Pengiriman Jarak Jauh

Persiapan Pengalaman

Perpustakaan Konten

Kemampuan Bahasa

Pengembangan Penilaian AI

Pengaturan Konten AI

Platform Penilaian

Data Insight

PL Portfolio

Dukungan Solusi Pendidikan

Teknologi

Perawatan Kesehatan Global

Keuangan

Pemerintah

Asosiasi

Pendidikan

Konsumen

Kisah Sukses

Panduan dan Kertas Putih

Webinar

Acara

Blog

Penelitian

Kepemimpinan

Kantor Global

Ujian Prometric

Ruang Pers

Karir

Rencana Pengurangan Karbon

Hubungi Kami

Model Bahasa Besar dan Pengembangan Penilaian

Pengantar

Tujuan Desain

Spesifisitas

Keamanan

Kepercayaan & Dukungan

Kesimpulan