Autorzy: Charles Foster i Jesse Hamer
Wprowadzenie
Od 2021 roku w Finetune dostrzegamy potencjał dużych modeli językowych (LLM) w transformacji sposobu pracy profesjonalistów w dziedzinie edukacji i oceniania. Dramatu postępu w tej dziedzinie sprawił, że koncepcje mogą przejść od badawczego zabawki jednego tygodnia do wirusowego produktu następnego.
Nie było zaskoczeniem, że reakcja na ChatGPT była tak ekscytująca: w jednej z prezentacji wszyscy zrozumieli, że stoimy u progu czegoś wielkiego. Biorąc pod uwagę obecną ekscytację i niepewność, można się zastanawiać: jak w tym kontekście wpisuje się opatentowane Finetune Generate? Jeśli mógłbym po prostu poprosić ogólny chatbot, aby napisał za mnie, dlaczego potrzebowałbym czegokolwiek innego?
Lubimy myśleć o dużych modelach językowych jako modelach bazowych: systemach AI, których rozległe i zróżnicowane szkolenie pozwala im działać jako podstawa dla szerokiego zakresu zastosowań. Kilka organizacji, w tym Anthropic, EleutherAI i OpenAI (twórca ChatGPT), trenuje te ogromne modele i udostępnia je innym do użycia. Ale same modele to jedynie warstwa bazowa: mają o wiele większy potencjał, gdy są wpleciona w większy system, dostosowany do konkretnej aplikacji. Podobnie jak inne technologie ogólnego przeznaczenia, takie jak sieć, może zająć całe pokolenie badaczy i przedsiębiorców budujących systemy na jej podstawie, aby w pełni zrealizować jej potencjał. W wywiadzie z Ezra Klein, dyrektor generalny OpenAI Sam Altman wyraził podobne odczucie:
Myślę, że nie jesteśmy najlepsi na świecie w tym, ani nie chcemy naprawdę odwracać naszej uwagi [od tego], co wszystkie wspaniałe produkty, które będą budowane na [dużych modelach językowych]. I dlatego myślimy o naszej roli jako o tym, aby ustalić, jak zbudować najbardziej zdolne systemy AI na świecie, a następnie udostępnić je każdemu, kto przestrzega naszych zasad, aby zbudować wszystkie te systemy na ich podstawie.
Altman, 2023
Łącząc LLM z bardziej tradycyjnymi technologiami, takimi jak bazy wiedzy i interfejsy z udziałem ludzi, możemy stworzyć dojrzałe stosy technologiczne, lub aplikacje generatywne, które pozwalają nam uwolnić możliwości LLM do tworzenia inteligentnych narzędzi w różnych obszarach zastosowań. Generate i ChatGPT to dwa wczesne przykłady takich aplikacji.
Mając na uwadze ten kontekst, porównajmy ChatGPT i Finetune Generate jako aplikacje generatywne, obie oparte na GPT-3, z punktu widzenia opracowywania zadań.
Cele projektowe
Zarówno ChatGPT, jak i Finetune Generate mają na celu dostarczenie bardziej intuicyjnego interfejsu dla użytkowników do interakcji z modelami generatywnymi takimi jak GPT-3. Poza tym, dwie aplikacje są dość różne. OpenAI ma misję budowania bezpiecznych, ogólnego przeznaczenia systemów AI dla wszystkich i stworzył ChatGPT, aby dać ogółowi społeczeństwa przedsmak możliwości modeli językowych w pracy z naturalnym językiem oraz aby służyć jako piaskownica dla twórców do testowania nowych pomysłów.
W Finetune, chociaż angażujemy się w szerszą społeczność badawczą wokół innowacji modeli językowych (patrz nasza współpraca z OpenAI w zakresie poprawy wyszukiwania semantycznego), naszym celem z Generate nie było głównie budowanie nowych ogólnych systemów, ale raczej stworzenie jak najlepszego narzędzia do pisania zadań z wykorzystaniem AI. Dlatego Generate jest zbudowane specjalnie z myślą o autorach zadań, opierając się na ich najlepszych praktykach, języku i przepływach pracy. Wszystkie nasze ograniczenia projektowe opierały się na współpracy z szeroką gamą wczesnych użytkowników. Każdy model Generate, który budujemy, jest zaprojektowany tak, aby odzwierciedlał unikalną strukturę każdej oceny i daje użytkownikowi konkretne kontrole potrzebne do wykonania ich zadań. Co więcej, całe zespoły autorów zadań mogą współpracować nad opracowywaniem zadań z wykorzystaniem Generate, z wbudowaną funkcjonalnością umożliwiającą zarządzanie uprawnieniami oraz uporządkowany eksport w formatach takich jak QTI.
Szczegółowość
Duże modele językowe przechodzą przez początkową fazę szkolenia zwaną pretraining, w której w jednej długiej sesji uczą się z milionów stron z sieci, książek i innych źródeł. Ze względu na to, jak kosztowne jest obliczanie uczenia się z tych danych, ich wiedza jest zazwyczaj ustalona na stałe po tym etapie. Ponieważ jest to cienki interfejs dialogowy na szczycie GPT-3, ChatGPT podobnie ma stałą bazę wiedzy, która nie może być zmieniana. Jeśli na przykład technik chciałby uzyskać pomoc w związku z jakimś systemem własnościowym, taki model prawdopodobnie nie byłby dla niego pomocny, ponieważ model nie ma sposobu na naukę nowych tematów.
Partnerzy Finetune obejmują od K-12 do szkolnictwa wyższego oraz licencjonowanie i certyfikację, i obejmują szeroką gamę dziedzin.
Dlatego dla nas kluczowe jest, aby modele, które budujemy dla nich, musiały uczyć się z ich unikalnych treści — nawet jeśli te treści są wysoce wyspecjalizowane lub nowe — i musiały być aktualizowane nowymi materiałami w miarę ich dostępności.
Aby to umożliwić, nasz zespół R&D AI udoskonalił nasze metody, aby efektywnie wprowadzać nową wiedzę do modeli językowych i dostosowywać je do specyficznych wytycznych oceny. Co więcej, Generate dynamicznie uczy się w miarę upływu czasu, aby lepiej dopasować zadania do konkretnej treści i stylu zadań każdego klienta. W ciągu tego roku planujemy wprowadzić kilka dodatkowych funkcji, które będą nadal poprawiać kontrolowalność i zdolność dostosowywania naszych modeli, od ukierunkowania na kluczowe frazy po drobiazgową kontrolę nad złożonością poznawczą i nie tylko.
Bezpieczeństwo
Jako eksperymentalna demonstracja, ChatGPT ma na celu uzyskanie informacji zwrotnej na temat tego, jak ludzie wchodzą w interakcje z modelami językowymi, aby OpenAI mogło poprawić podstawową technologię wspierającą jego interfejsy API. Z tego powodu, gdy użytkownicy rozmawiają z ChatGPT, te interakcje są przechowywane i mogą trafić do przyszłych zbiorów danych treningowych, aby pomóc w szkoleniu kolejnej generacji modeli. To oznacza, że jeśli opracujesz zadanie oceniające za pomocą ChatGPT, przyszłe modele mogą o nim wiedzieć lub je zapamiętać, co potencjalnie naraża Twoje zadania i styl zadań na sposoby, których nie zamierzałeś, ryzykując ich bezpieczeństwo.
Bezpieczeństwo jest kluczową kwestią w opracowywaniu zadań.
Generate przechowuje zadania w bezpieczny sposób, odizolowane, z każdego klienta mającego dostęp tylko do swoich modeli.
Nawet w obrębie jednego klienta, użytkownicy mogą być ograniczeni do dostępu tylko do konkretnych wygenerowanych zadań. Dzięki Generate klienci są zawsze właścicielami wszelkich zadań, które produkują, niezależnie od tego, czy dopiero próbują początkowego modelu, czy przyjęli narzędzie na dużą skalę.
Zaufanie i wsparcie
Wiele z tego, co utrudnia produktywne korzystanie z LLM, polega na tym, że jest fundamentalnie losowe: zadaj mu to samo pytanie dwa razy, a otrzymasz dwie różne odpowiedzi. To stoi w sprzeczności z tym, czego zwykle oczekujemy od naszych narzędzi: liczymy na to, że będą niezawodne. To prowadzi do jednego z najbardziej uporczywych problemów z ChatGPT i innymi narzędziami LLM, a mianowicie, że trudno zaufać ich wynikom, gdy nie wiesz, dlaczego te wyniki zostały wybrane. Czy opierało się to na faktach, które model przypomniał, czy na fałszywych informacjach wymyślonych przez model, czy nawet plagiatowanych z jakiegoś niewidocznego źródła?
Standardy zaufania w edukacji i ocenianiu są wysokie, znacznie wyższe niż w przypadku zwykłych chatbotów. Klienci chcą wiedzieć, że zadania, które produkują za pomocą Generate, są naprawdę nowe, oparte na ich własnych materiałach i są ważne.
Nasze zespoły ds. pomiarów i R&D AI współpracują z każdym klientem, aby tworzyć modele dostosowane do ich potrzeb i aby włączać ich opinie w ciągłe ulepszanie modeli.
Wykonujemy również ręczne i zautomatyzowane kontrole, aby zweryfikować, że sugestie, które Generate proponuje, odpowiadają specyfikacjom klienta. Wkrótce wprowadzimy nową funkcję, która umożliwi użytkownikom łatwe porównywanie wygenerowanych zadań z materiałami referencyjnymi, aby mogli mieć natychmiastowe zapewnienie, że zadania, które produkują, są oparte na faktach.
Podsumowanie
To ekscytujący czas, w którym zbudowane zostaną setki aplikacji generatywnych, wszystkie dążące do różnych potencjalnych zastosowań dla LLM. Gdy je eksplorujesz jako osoba, która głęboko dba o jakość oceniania w edukacji, certyfikacji i licencjonowania, zalecamy zawsze mieć na uwadze następujące pytania:
- Dla kogo ta aplikacja jest zaprojektowana?
- Czy model, z którego korzysta ta aplikacja, jest szkolony specjalnie pod kątem potrzeb mojej organizacji, w tym naszych potrzeb bezpieczeństwa?
- Jak będą wykorzystywane dane, które dostarczam?
- Czy chcę inwestować czas i pieniądze, aby uczynić surowy model ogólnego przeznaczenia użytecznym (np. odpowiedni interfejs użytkownika) i wiarygodnym dla naszych ekspertów w danej dziedzinie (SMEs), aby można go było zintegrować z naszym przepływem pracy i zastosowaniem o wysokim ryzyku?
Wciąż jesteśmy na wczesnym etapie tej niezwykle imponującej technologii, ale już teraz zakres możliwości, które aplikacje generatywne umożliwią w różnych branżach, staje się oczywisty. Tak samo jak głosy ostrożności wyrażane przez Gary'ego Marcusa z NYU i innych.
W Finetune jesteśmy bardzo podekscytowani, aby kontynuować prezentowanie kolejnych funkcji w naszym trzecim roku, które uczynią Generate jeszcze bardziej wydajnym, jeszcze bardziej niezawodnym i jeszcze bardziej pomocnym w całym krajobrazie uczenia się i oceniania.
Zaktualizowano 29 kwietnia 2025