Von Charles Foster und Jesse Hamer
Einleitung
Seit 2021 haben wir bei Finetune das Potenzial von großen Sprachmodellen (LLMs) erkannt, die Arbeitsweise von Fachleuten in Bildung und Bewertung zu transformieren. Das dramatische Tempo des Fortschritts in diesem Bereich hat dazu geführt, dass Konzepte von einem Forschungs-Spielzeug in einer Woche zu einem viralen Produkt in der nächsten Woche werden können.
Es war daher keine Überraschung zu sehen, wie begeistert die Reaktion auf ChatGPT war: In einer Demo verstanden alle, dass wir am Beginn von etwas Großem stehen. Angesichts der gegenwärtigen Aufregung und Unsicherheit könnte man sich fragen: Wie passt das patentierte Finetune Generate in diese Landschaft? Wenn ich einfach einen allgemeinen Chatbot fragen könnte, meine Texte für mich zu schreiben, warum sollte ich dann etwas anderes brauchen?
Wir betrachten große Sprachmodelle gerne als Grundlagenmodelle: KI-Systeme, deren umfangreiches und vielfältiges Training es ihnen ermöglicht, als Fundament für eine Vielzahl von Anwendungsfällen zu fungieren. Einige Organisationen, darunter Anthropic, EleutherAI und OpenAI (der Entwickler von ChatGPT), trainieren diese riesigen Modelle und stellen sie anderen zur Verfügung. Aber die Modelle selbst sind lediglich die Basisschicht: Sie haben viel größeres Potenzial, wenn sie in ein größeres System integriert werden, das auf eine spezifische Anwendung zugeschnitten ist. Genau wie andere Technologien mit allgemeinem Zweck, wie das Web, kann es eine ganze Generation von Forschern und Unternehmern erfordern, Systeme darauf aufzubauen, damit es sein Potenzial entfalten kann. In einem Interview mit Ezra Klein äußerte OpenAI-CEO Sam Altman ein ähnliches Gefühl:
Was ich denke, worin wir nicht die besten der Welt sind und auch nicht wirklich unsere Aufmerksamkeit [davon] ablenken wollen, sind all die wunderbaren Produkte, die auf [großen Sprachmodellen] aufgebaut werden. Und so denken wir über unsere Rolle nach, wie wir die fähigsten KI-Systeme der Welt bauen und sie dann jedem zur Verfügung stellen, der unseren Regeln folgt, um all diese Systeme darauf aufzubauen.
Altman, 2023
Durch die Kombination von LLMs mit traditionelleren Technologien wie Wissensdatenbanken und Mensch-in-der-Schleife-Schnittstellen können wir reife Technologiestacks oder generative Anwendungen schaffen, die es uns ermöglichen, die Fähigkeiten von LLMs freizusetzen, um intelligente Werkzeuge in verschiedenen Anwendungsbereichen zu schaffen. Generate und ChatGPT sind zwei frühe Beispiele dafür.
Mit diesem Rahmen im Hinterkopf wollen wir ChatGPT und Finetune Generate als generative Anwendungen vergleichen, die beide auf GPT-3 basieren, aus der Perspektive der Item-Entwicklung.
Designziele
Sowohl ChatGPT als auch Finetune Generate sollen eine intuitivere Schnittstelle für Benutzer bieten, um mit generativen Modellen wie GPT-3 zu interagieren. Darüber hinaus unterscheiden sich die beiden Anwendungen erheblich. OpenAI hat sich zum Ziel gesetzt, sichere, allgemein einsetzbare KI-Systeme für alle zu entwickeln, und hat ChatGPT entwickelt, um der allgemeinen Öffentlichkeit einen Vorgeschmack darauf zu geben, wozu Sprachmodelle mit natürlicher Sprache fähig sind, und um als Sandbox für Entwickler zu dienen, um neue Ideen auszuprobieren.
Bei Finetune engagieren wir uns zwar auch in der breiteren Forschungsgemeinschaft rund um Innovationen bei Sprachmodellen (siehe unsere Zusammenarbeit mit OpenAI zu Verbesserungen der semantischen Suche), war unser Ziel mit Generate jedoch nicht in erster Linie, neue allgemein einsetzbare Systeme zu bauen, sondern vielmehr, das bestmögliche Werkzeug für KI-unterstütztes Schreiben von Prüfungsfragen zu schaffen. Deshalb wurde Generate speziell mit den Bedürfnissen von Prüfungsautoren im Hinterkopf entwickelt, basierend auf ihren Best Practices, ihrer Sprache und ihren Arbeitsabläufen. Alle unsere Designbeschränkungen basierten auf der Zusammenarbeit mit einer Vielzahl von frühen Anwendern. Jedes Generate-Modell, das wir erstellen, ist darauf ausgelegt, die einzigartige Struktur jeder Bewertung widerzuspiegeln und dem Benutzer die spezifischen Kontrollen zu geben, die für ihre Aufgabe erforderlich sind. Darüber hinaus können ganze Teams von Prüfungsautoren mithilfe von Generate zusammenarbeiten, mit integrierter Funktionalität zur Verwaltung von Berechtigungen und strukturiertem Export in Formate wie QTI.
Spezifität
Große Sprachmodelle durchlaufen eine anfängliche Trainingsphase, die als Pretraining bezeichnet wird, in der sie in einer langen Sitzung aus Millionen von Seiten aus dem Web, Büchern und anderen Quellen lernen. Aufgrund der hohen Kosten der Berechnung des Lernens aus diesen Eingaben ist ihr Wissen danach typischerweise festgelegt. Da es sich um eine dünne Dialogschicht über GPT-3 handelt, hat ChatGPT ebenfalls eine feste Wissensbasis, die nicht geändert werden kann. Wenn beispielsweise ein Techniker Hilfe zu einem proprietären System benötigte, wäre ein solches Modell wahrscheinlich nicht hilfreich für ihn, da das Modell keine Möglichkeit hat, neues Fachwissen zu erlernen.
Die Partner von Finetune reichen von K-12 über Hochschulbildung bis hin zu Lizenzierung und Zertifizierung und decken eine Vielzahl von Bereichen ab.
Insofern ist es für uns entscheidend, dass die Modelle, die wir für sie entwickeln, aus ihren einzigartigen Inhalten lernen müssen – selbst wenn dieser Inhalt hochspezialisiert oder neu ist – und mit neuen Materialien aktualisierbar sein müssen, sobald sie verfügbar sind.
Um dies zu ermöglichen, hat unser KI-F&E-Team unsere eigenen Methoden verfeinert, um neues Wissen effizient in Sprachmodelle zu integrieren und sie auf die spezifischen Richtlinien einer Bewertung auszurichten. Darüber hinaus lernt Generate dynamisch im Laufe der Zeit, um die Items besser auf die spezifischen Inhalte und Stile der Aufgaben jedes Kunden abzustimmen. Im Laufe dieses Jahres planen wir die Einführung mehrerer weiterer Funktionen, die die Kontrollierbarkeit und Anpassungsfähigkeit unserer Modelle weiter verbessern werden, von der gezielten Ansprache von Schlüsselbegriffen bis hin zur feingranularen Kontrolle über die kognitive Komplexität und darüber hinaus.
Sicherheit
Als experimentelle Demo soll ChatGPT Feedback dazu erhalten, wie Menschen mit Sprachmodellen interagieren, damit OpenAI die grundlegende Technologie, die seine APIs unterstützt, verbessern kann. Aus diesem Grund werden die Interaktionen der Benutzer mit ChatGPT gespeichert und könnten in zukünftige Trainingsdatensätze einfließen, um die nächste Generation von Modellen zu trainieren. Das bedeutet, dass, wenn Sie ein Prüfungsitem mit ChatGPT entwickeln, zukünftige Modelle möglicherweise darüber Bescheid wissen oder es auswendig gelernt haben, was Ihre Items und Ihren Item-Stil in ungewollte Weise offenbaren könnte und deren Sicherheit gefährdet.
Sicherheit ist ein zentrales Anliegen bei der Entwicklung von Items.
Generate hält Items gesichert, abgeriegelt, wobei jeder Kunde nur auf seine Modelle zugreifen kann.
Sogar innerhalb eines einzelnen Kunden können Benutzer auf bestimmte generierte Items beschränkt werden. Mit Generate sind die Kunden immer die Eigentümer der Items, die sie produzieren, egal ob sie gerade ein erstes Modell ausprobieren oder das Tool in großem Maßstab übernommen haben.
Vertrauen & Unterstützung
Ein Großteil dessen, was die produktive Nutzung eines LLM schwierig macht, ist, dass es grundsätzlich zufällig ist: Stellen Sie ihm dieselbe Frage zweimal, und es wird Ihnen zwei unterschiedliche Antworten geben. Das steht im Widerspruch zu dem, was wir normalerweise von unseren Werkzeugen erwarten: Wir zählen darauf, dass sie zuverlässig sind. Dies führt zu einem der hartnäckigsten Probleme mit ChatGPT und anderen LLM-Tools, nämlich dass es schwierig ist, ihren Ausgaben zu vertrauen, wenn man nicht weiß, warum diese Ausgaben ausgewählt wurden. Basieren sie auf Fakten, die das Modell sich erinnert, oder auf Falschheiten, die das Modell erfunden hat, oder sogar auf Plagiaten aus einer unbekannten Quelle?
Die Standards für Vertrauen in der Bildung und Bewertung sind hoch, viel höher als bei gelegentlichen Chatbots. Kunden wollen sicherstellen, dass die Items, die sie mit Generate produzieren, wirklich neu, auf ihren eigenen Materialien basieren und gültig sind.
Unsere Mess- und KI-F&E-Teams arbeiten mit jedem Kunden zusammen, um Modelle zu erstellen, die auf ihre Bedürfnisse zugeschnitten sind, und um ihr Feedback in laufende Verbesserungen der Modelle einfließen zu lassen.
Wir führen auch manuelle und automatisierte Überprüfungen durch, um sicherzustellen, dass die Vorschläge, die Generate macht, den Spezifikationen des Kunden entsprechen. Bald werden wir eine neue Funktion einführen, die es den Benutzern ermöglicht, generierte Items einfach mit Referenzmaterialien zu vergleichen, sodass sie sofortige Sicherheit haben, dass die Items, die sie produzieren, auf Fakten basieren.
Fazit
Dies ist eine aufregende Zeit, in der Hunderte von generativen Anwendungen entwickelt werden, die alle verschiedene potenzielle Anwendungsfälle für LLMs verfolgen. Wenn Sie diese erkunden, als jemand, dem die Qualität der Bewertung in Bildung, Zertifizierung und Lizenzierung am Herzen liegt, empfehlen wir, stets die folgenden Fragen im Hinterkopf zu behalten:
- Für wen ist diese Anwendung konzipiert?
- Ist das Modell, das diese Anwendung verwendet, speziell für die Bedürfnisse meiner Organisation trainiert, einschließlich unserer Sicherheitsbedürfnisse?
- Wie werden die Daten, die ich bereitstelle, verwendet?
- Möchte ich die Zeit und das Geld investieren, um ein rohes allgemeines Modell nutzbar zu machen (z. B. die geeignete Benutzeroberfläche) und von unseren Fachexperten als vertrauenswürdig zu erachten, um in unseren Arbeitsablauf und hochriskanten Anwendungsfall integriert zu werden?
Wir befinden uns noch in den frühen Tagen dieser beeindruckenden Technologie, aber bereits das Ausmaß der Fähigkeiten, die generative Anwendungen in verschiedenen Branchen ermöglichen werden, wird offensichtlich. Ebenso werden die Warnungen, die von Gary Marcus von der NYU und anderen geäußert werden, deutlich.
Bei Finetune freuen wir uns sehr darauf, im dritten Jahr weitere Funktionen vorzustellen, die Generate noch leistungsfähiger, noch zuverlässiger und noch hilfreicher über die gesamte Bildungs- und Bewertungslandschaft machen.
Aktualisiert am 29. April 2025