Μεγάλα Γλωσσικά Μοντέλα και Ανάπτυξη Αξιολογήσεων

Published on Ιανουαρίου 20,2023

Από τους Charles Foster και Jesse Hamer

Εισαγωγή

Από το 2021, στην Finetune έχουμε δει τη δυνατότητα των Μεγάλων Γλωσσικών Μοντέλων (LLMs) να μεταμορφώνουν τον τρόπο που εργάζονται οι επαγγελματίες στην εκπαίδευση και την αξιολόγηση. Ο δραματικός ρυθμός προόδου σε αυτόν τον τομέα σήμαινε ότι οι έννοιες μπορούν να μετατραπούν από ένα ερευνητικό παιχνίδι μια εβδομάδα, σε ένα ιογενές προϊόν την επόμενη.

Δεν ήταν επομένως έκπληξη το πόσο ενθουσιασμένη ήταν η αντίδραση στο ChatGPT: σε μια επίδειξη, όλοι κατάλαβαν ότι βρισκόμαστε στο κατώφλι κάτι σπουδαίου. Δεδομένου του παρόντος ενθουσιασμού και αβεβαιότητας, μπορεί κανείς να αναρωτηθεί: πώς ταιριάζει το πατενταρισμένο Finetune Generate σε αυτό το τοπίο; Αν μπορούσα απλά να ζητήσω από ένα γενικό chatbot να κάνει τη συγγραφή για μένα, γιατί να χρειάζομαι οτιδήποτε άλλο;

Μας αρέσει να σκεφτόμαστε τα Μεγάλα Γλωσσικά Μοντέλα ως θεμελιώδη μοντέλα: Συστήματα AI των οποίων η εκτενής και ποικιλόμορφη εκπαίδευση τους επιτρέπει να λειτουργούν ως θεμέλιο για ένα ευρύ φάσμα περιπτώσεων χρήσης. Μερικές οργανώσεις, συμπεριλαμβανομένων των Anthropic, EleutherAI και OpenAI (του προγραμματιστή του ChatGPT), εκπαιδεύουν αυτά τα γιγάντια μοντέλα και τα καθιστούν διαθέσιμα για άλλους. Αλλά τα ίδια τα μοντέλα είναι απλώς η βασική στρώση: έχουν πολύ μεγαλύτερη δυνατότητα όταν είναι ενσωματωμένα σε ένα μεγαλύτερο σύστημα, προσαρμοσμένο για μια συγκεκριμένη εφαρμογή. Όπως και άλλες τεχνολογίες γενικής χρήσης όπως ο Ιστός, μπορεί να χρειαστεί μια ολόκληρη γενιά ερευνητών και επιχειρηματιών να χτίσουν συστήματα πάνω σε αυτό, για να συνειδητοποιήσει τις δυνατότητές του. Σε μια συνέντευξη με τον Ezra Klein, ο Διευθύνων Σύμβουλος της OpenAI, Sam Altman, εξέφρασε παρόμοια συναισθήματα:

Αυτό που νομίζω ότι δεν είμαστε οι καλύτεροι στον κόσμο, ούτε θέλουμε πραγματικά να αποσπάσουμε την προσοχή μας [από], είναι όλα τα θαυμάσια προϊόντα που θα κατασκευαστούν πάνω από [τα μεγάλα γλωσσικά μοντέλα]. Και έτσι σκεφτόμαστε το ρόλο μας ως να καταλάβουμε πώς να κατασκευάσουμε τα πιο ικανά συστήματα Α.Ι. στον κόσμο και στη συνέχεια να τα κάνουμε διαθέσιμα σε οποιονδήποτε ακολουθεί τους κανόνες μας για να κατασκευάσει όλα αυτά τα συστήματα πάνω τους.
Altman, 2023

Συνδυάζοντας τα LLMs με πιο παραδοσιακές τεχνολογίες όπως βάσεις γνώσεων και διεπαφές ανθρώπου στη διαδικασία, μπορούμε να δημιουργήσουμε ώριμες τεχνολογικές στοίβες, ή γενετικές εφαρμογές, που μας επιτρέπουν να απελευθερώσουμε τις δυνατότητες των LLMs για να δημιουργήσουμε έξυπνα εργαλεία σε όλους τους τύπους περιοχών εφαρμογής. Το Generate και το ChatGPT είναι δύο πρώιμα παραδείγματα αυτών.

Με αυτό το πλαίσιο στο μυαλό, ας συγκρίνουμε το ChatGPT και το Finetune Generate ως γενετικές εφαρμογές που έχουν κατασκευαστεί και οι δύο πάνω στο GPT-3, από την άποψη της ανάπτυξης στοιχείων.

Στόχοι Σχεδίασης

Τanto το ChatGPT όσο και το Finetune Generate προορίζονται να παρέχουν μια πιο διαισθητική διεπαφή για τους χρήστες να αλληλεπιδρούν με γενετικά μοντέλα όπως το GPT-3. Πέρα από αυτό, οι δύο εφαρμογές είναι αρκετά διαφορετικές. Η OpenAI έχει αποστολή να κατασκευάσει ασφαλή, γενικής χρήσης συστήματα ΑΙ για όλους και κατασκεύασε το ChatGPT για να δώσει στο ευρύ κοινό μια γεύση από το τι είναι ικανά να κάνουν τα γλωσσικά μοντέλα με φυσική γλώσσα και να λειτουργήσει ως ένα sandbox για τους κατασκευαστές να δοκιμάσουν νέες ιδέες.

Στην Finetune, αν και ασχολούμαστε με την ευρύτερη ερευνητική κοινότητα γύρω από καινοτομίες στα γλωσσικά μοντέλα (δείτε τη συνεργασία μας με την OpenAI για βελτιώσεις στη σημασιολογική αναζήτηση), ο στόχος μας με το Generate δεν ήταν κυρίως να κατασκευάσουμε νέα γενικά συστήματα, αλλά μάλλον να κατασκευάσουμε το καλύτερο εργαλείο δυνατό για τη συγγραφή στοιχείων με υποστήριξη AI. Γι' αυτό το Generate έχει κατασκευαστεί ειδικά με γνώμονα τους συγγραφείς στοιχείων, γύρω από τις καλύτερες πρακτικές, τη γλώσσα και τις ροές εργασίας τους. Όλοι οι περιορισμοί σχεδίασης μας βασίστηκαν στη συμμετοχή με μια ευρεία ποικιλία πρώιμων χρηστών. Κάθε μοντέλο Generate που κατασκευάζουμε είναι σχεδιασμένο να αντικατοπτρίζει τη μοναδική δομή κάθε αξιολόγησης και δίνει στον χρήστη τους συγκεκριμένους ελέγχους που χρειάζονται για την εργασία τους. Επιπλέον, ολόκληρες ομάδες συγγραφέων στοιχείων μπορούν να συνεργαστούν στην ανάπτυξη στοιχείων χρησιμοποιώντας το Generate, με ενσωματωμένη λειτουργικότητα για να επιτρέπεται η διαχείριση δικαιωμάτων και η οργανωμένη εξαγωγή σε μορφές όπως το QTI.

Ειδικότητα

Τα μεγάλα γλωσσικά μοντέλα περνούν από μια αρχική φάση εκπαίδευσης που ονομάζεται προεκπαίδευση, όπου σε μια μακρά συνεδρία μαθαίνουν από εκατομμύρια σελίδες από τον ιστό, βιβλία και άλλες πηγές. Επειδή το υπολογιστικό κόστος για να μάθουν από αυτές τις εισροές είναι υψηλό, η γνώση τους είναι συνήθως σταθερή στη συνέχεια. Δεδομένου ότι είναι μια λεπτή διάλογος περιτύλιξης πάνω από το GPT-3, το ChatGPT έχει παρόμοια μια σταθερή βάση γνώσεων που δεν μπορεί να τροποποιηθεί. Αν, ας πούμε, ένας τεχνικός ήθελε βοήθεια σχετικά με κάποιο ιδιόκτητο σύστημα, ένα τέτοιο μοντέλο πιθανότατα δεν θα ήταν χρήσιμο γι' αυτούς, επειδή το μοντέλο δεν έχει τρόπο να μάθει νέα θέματα.

Οι συνεργάτες της Finetune καλύπτουν το φάσμα από K-12 έως ανώτατη εκπαίδευση έως αδειοδότηση και πιστοποίηση και εκτείνονται σε μια ευρεία ποικιλία τομέων.

Ως εκ τούτου, είναι κρίσιμο για εμάς ότι τα μοντέλα που κατασκευάζουμε για αυτούς πρέπει να μαθαίνουν από το μοναδικό τους περιεχόμενο—ακόμα και αν αυτό το περιεχόμενο είναι εξαιρετικά εξειδικευμένο ή καινούριο—και πρέπει να είναι ενημερώσιμα με νέα υλικά καθώς αυτά γίνονται διαθέσιμα.

Για να το κάνουμε αυτό δυνατό, η ομάδα Έρευνας και Ανάπτυξης AI μας έχει εξελίξει τις δικές μας μεθόδους για να ενσωματώνει αποτελεσματικά νέα γνώση στα γλωσσικά μοντέλα και να τα στοχεύει στις συγκεκριμένες κατευθυντήριες γραμμές μιας αξιολόγησης. Επιπλέον, το Generate μαθαίνει δυναμικά με την πάροδο του χρόνου για να στοχεύει καλύτερα τα στοιχεία στο συγκεκριμένο περιεχόμενο και στυλ των εργασιών κάθε πελάτη. Καθ' όλη τη διάρκεια αυτού του έτους σχεδιάζουμε να κυκλοφορήσουμε αρκετές ακόμη δυνατότητες που θα συνεχίσουν να βελτιώνουν τον έλεγχο και την προσαρμοστικότητα των μοντέλων μας, από στοχεύσεις κλειδί φράσεων έως λεπτομερή έλεγχο της γνωστικής πολυπλοκότητας και πέρα από αυτό.

Ασφάλεια

Ως πειραματική επίδειξη, το ChatGPT έχει σχεδιαστεί για να προκαλεί ανατροφοδότηση σχετικά με το πώς οι άνθρωποι αλληλεπιδρούν με γλωσσικά μοντέλα, ώστε η OpenAI να μπορεί να βελτιώσει την θεμελιώδη τεχνολογία που υποστηρίζει τα APIs της. Για αυτό το λόγο, όταν οι χρήστες μιλούν με το ChatGPT, αυτές οι αλληλεπιδράσεις αποθηκεύονται και μπορεί να καταλήξουν σε μελλοντικά σύνολα εκπαίδευσης, για να βοηθήσουν στην εκπαίδευση της επόμενης γενιάς μοντέλων. Αυτό σημαίνει ότι αν αναπτύξετε ένα στοιχείο αξιολόγησης με το ChatGPT, τα μελλοντικά μοντέλα μπορεί να το γνωρίζουν ή να το έχουν απομνημονεύσει, εκθέτοντας ενδεχομένως τα στοιχεία και το στυλ στοιχείων σας με τρόπους που δεν είχατε σκοπό, ρισκάροντας την ασφάλειά τους.

Η ασφάλεια είναι μια βασική ανησυχία στην ανάπτυξη στοιχείων.

Το Generate κρατά τα στοιχεία ασφαλή, απομονωμένα, με κάθε πελάτη να έχει πρόσβαση μόνο στα μοντέλα τους.

Ακόμη και εντός ενός μόνο πελάτη, οι χρήστες μπορούν να περιοριστούν ώστε να έχουν πρόσβαση μόνο σε συγκεκριμένα παραγόμενα στοιχεία. Με το Generate, οι πελάτες είναι πάντα οι ιδιοκτήτες των στοιχείων που παράγουν, ανεξαρτήτως εάν δοκιμάζουν απλά ένα αρχικό μοντέλο ή έχουν υιοθετήσει το εργαλείο σε μεγάλη κλίμακα.

Εμπιστοσύνη & Υποστήριξη

Πολλά από αυτά που καθιστούν τη παραγωγική χρήση ενός LLM δύσκολη είναι ότι είναι ουσιαστικά τυχαίο: ρωτήστε το την ίδια ερώτηση δύο φορές και θα σας δώσει δύο διαφορετικές απαντήσεις. Αυτό έρχεται σε αντίθεση με αυτό που περιμένουμε συνήθως από τα εργαλεία μας: υπολογίζουμε ότι θα είναι αξιόπιστα. Αυτό οδηγεί σε ένα από τα πιο επίμονα προβλήματα με το ChatGPT και με άλλα εργαλεία LLM, δηλαδή ότι είναι δύσκολο να εμπιστευτείς τις εξόδους τους όταν δεν ξέρεις γιατί επιλέχθηκαν αυτές οι έξοδοι. Ήταν βασισμένες σε γεγονότα που το μοντέλο ανακαλεί, ή σε ψεύδη που το μοντέλο εφηύρε, ή ακόμη και σε αντιγραφή από κάποια αόρατη πηγή;

Τα πρότυπα εμπιστοσύνης στην εκπαίδευση και την αξιολόγηση είναι υψηλά, πολύ υψηλότερα από εκείνα για casual chatbots. Οι πελάτες θέλουν να ξέρουν ότι τα στοιχεία που παράγουν μέσω του Generate είναι πραγματικά νέα, βασίζονται στα δικά τους υλικά και είναι έγκυρα.

Οι ομάδες Μέτρησης και Έρευνας και Ανάπτυξης AI μας εργάζονται με κάθε πελάτη για να δημιουργήσουν μοντέλα προσαρμοσμένα στις ανάγκες τους και να ενσωματώσουν την ανατροφοδότησή τους σε συνεχιζόμενες βελτιώσεις μοντέλων.

Επίσης, πραγματοποιούμε χειροκίνητους και αυτοματοποιημένους ελέγχους για να επαληθεύσουμε ότι οι προτάσεις που κάνει το Generate ταιριάζουν με τις προδιαγραφές του πελάτη. Σύντομα θα κυκλοφορήσουμε μια νέα δυνατότητα που θα επιτρέπει στους χρήστες να διασταυρώνουν εύκολα τα παραγόμενα στοιχεία με αναφορές υλικών, ώστε να έχουν άμεση διαβεβαίωση ότι τα στοιχεία που παράγουν είναι θεμελιωμένα σε γεγονότα.

Συμπέρασμα

Αυτή είναι μια συναρπαστική εποχή στην οποία εκατοντάδες γενετικές εφαρμογές θα κατασκευαστούν, όλες επιδιώκοντας διαφορετικές πιθανές περιπτώσεις χρήσης για τα LLMs. Καθώς τις εξερευνάτε ως άνθρωπος που νοιάζεται βαθιά για την ποιότητα της αξιολόγησης στην εκπαίδευση, την πιστοποίηση και την αδειοδότηση, σας προτείνουμε να διατηρείτε πάντα τις παρακάτω ερωτήσεις στο μυαλό σας:

Για ποιον είναι σχεδιασμένη αυτή η εφαρμογή;
Είναι το μοντέλο που χρησιμοποιεί αυτή η εφαρμογή εκπαιδευμένο συγκεκριμένα για το τι χρειάζεται ο οργανισμός μου, συμπεριλαμβανομένων των αναγκών ασφάλειας μας;
Πώς θα χρησιμοποιηθούν τα δεδομένα που παρέχω;
Θέλω να επενδύσω τον χρόνο και τα χρήματα για να κάνω ένα ακατέργαστο γενικό μοντέλο χρησιμοποιήσιμο (π.χ. η κατάλληλη διεπαφή χρήστη) και αξιόπιστο από τους Ειδικούς Θέματος (SMEs) μας ώστε να ενσωματωθεί στη ροή εργασίας μας και σε περιπτώσεις χρήσης υψηλού κινδύνου;

Είμαστε ακόμα στις πρώτες μέρες αυτής της βαθιά εντυπωσιακής τεχνολογίας, αλλά ήδη η έκταση των δυνατοτήτων που θα επιτρέψουν οι γενετικές εφαρμογές σε πολλές βιομηχανίες είναι προφανής. Έτσι είναι και οι φωνές προειδοποίησης που εκφράζουν οι Gary Marcus του NYU και άλλοι.

Στην Finetune, είμαστε πολύ ενθουσιασμένοι να συνεχίσουμε να παρουσιάζουμε περισσότερες δυνατότητες στον τρίτο μας χρόνο που θα κάνουν το Generate ακόμα πιο αποδοτικό, ακόμα πιο αξιόπιστο, και ακόμα πιο βοηθητικό σε όλο το τοπίο της μάθησης και της αξιολόγησης.

Ενημερώθηκε 29 Απριλίου 2025

Βρείτε την Εξέτασή σας

Πριν από την Εξέτασή σας

Καταλύματα

Στην Ημέρα της Εξέτασης

Μετά την εξέτασή σας

Συχνές Ερωτήσεις

Κλεισίματα Κέντρων Δοκιμών

Ανάπτυξη Αξιολόγησης

Παγκόσμια Παράδοση

Εμπειρία Υποψηφίου

Ανάπτυξη Προγράμματος

Ασφάλεια

Βελτιστοποίηση της τεχνητής νοημοσύνης

Πόροι Πελατών

Ανάπτυξη Εξετάσεων Τεχνητής Νοημοσύνης

Καταλογογράφηση Περιεχομένου Τεχνητής Νοημοσύνης

Ανάπτυξη δεξιοτήτων VR

Παράδοση στο Κέντρο

Απομακρυσμένη Παράδοση

Εμπειρία Προετοιμασίας

Βιβλιοθήκη περιεχομένου

Γλωσσική Επάρκεια

Αξιολόγηση Ανάπτυξης Τεχνητής Νοημοσύνης

Συντονισμός περιεχομένου τεχνητής νοημοσύνης

Πλατφόρμα Αξιολόγησης

Δεδομένα Insights

Πορτοφόλιο PL

Υποστήριξη Λύσεων Εκπαίδευσης

Τεχνολογία

Παγκόσμια Υγειονομική Περίθαλψη

Οικονομικά

Κυβέρνηση

Συλλογές

Εκπαίδευση

Καταναλωτής

Ιστορίες Επιτυχίας

Οδηγοί και Λευκές Βίβλοι

Διαδικτυακά σεμινάρια

Εκδηλώσεις

Ιστολόγιο

Έρευνα

Ηγεσία

Παγκόσμια Γραφεία

Προκριματικές Εξετάσεις

Press Room

Καριέρες

Σχέδιο Μείωσης Άνθρακα

Επικοινωνήστε μαζί μας

Μεγάλα Γλωσσικά Μοντέλα και Ανάπτυξη Αξιολογήσεων

Εισαγωγή

Στόχοι Σχεδίασης

Ειδικότητα

Ασφάλεια

Εμπιστοσύνη & Υποστήριξη

Συμπέρασμα