Ρύθμιση Μοντέλων Τεχνητής Νοημοσύνης για Δημιουργία Αντικειμένων

Published on Νοεμβρίου 19,2021

Tuning AI Models for Assessment Content Generation

Από τον Charles Foster

Στη Finetune, δημιουργούμε λύσεις AI για να αντιμετωπίσουμε μερικά από τα πιο προκλητικά προβλήματα στην τεχνολογία εκπαίδευσης, συμπεριλαμβανομένης της αυτοματοποιημένης παραγωγής περιεχομένου και της ταξινόμησης και συστάσεων μαθησιακών πόρων με τη βοήθεια AI. Επειδή το αντικείμενο που πρέπει να διαχειριστούν τα εργαλεία μας εκτείνεται από το K-12 έως την ανάπτυξη του εργατικού δυναμικού, επενδύουμε σημαντικά σε μεθόδους που μας επιτρέπουν να επεκτείνουμε την έκταση και το βάθος των καλυπτόμενων θεμάτων από τα μοντέλα μας. Βασικά στοιχεία αυτής της προσέγγισης είναι οι ευέλικτες μέθοδοι εκπαίδευσης εξειδικευμένων νευρωνικών δικτύων σε τομείς όπου τα γενικής χρήσης μοντέλα είναι ανεπαρκή. Σε αυτή την ανάρτηση του blog, θα ήθελα να μοιραστώ λίγα για το ταξίδι μας εξερευνώντας αυτές τις μεθόδους.

Εξατομίκευση

Η τυπική εξατομίκευση των νευρωνικών γλωσσικών μοντέλων περιλαμβάνει ταυτόχρονη βελτιστοποίηση όλων των εκπαιδεύσιμων παραμέτρων τους, οι οποίες μπορεί να φτάσουν σε πολλές δισεκατομμύρια για δίκτυα όπως το GPT-J. Σε αυτές τις κλίμακες, τόσο οι διαδικασίες εξατομίκευσης όσο και οι διαδικασίες συλλογής συμπερασμάτων είναι μη triviale, καθιστώντας τη μαζική ανάπτυξη αυτών δύσκολη. Στις δικές μας έρευνες, φαίνεται ότι μερικά βασικά ζητήματα ξεχωρίζουν:

  • Απλώς η εκτέλεση αυτών των μοντέλων μετασχηματιστή πιέζει ήδη τα όρια της μνήμης GPU (VRAM), και κατά τη διάρκεια της εξατομίκευσης υπάρχει μια άμεση σχέση μεταξύ του αριθμού των παραμέτρων που βελτιστοποιούνται και της ποσότητας της επιπλέον μνήμης που καταναλώνεται.
  • Με την τροποποίηση όλων των παραμέτρων στο δίκτυο, η ροή πληροφοριών που έχει μάθει κατά τη διάρκεια της προεκπαίδευσης μπορεί να διαταραχθεί, με αποτέλεσμα την απώλεια και την απώλεια ικανοτήτων λίγων δειγμάτων.
  • Η εξυπηρέτηση ενός προσαρμοσμένου μοντέλου πολλών gigabyte για κάθε χρήση θα δημιουργούσε απαράδεκτους χρόνους καθυστέρησης και κόστους.

Αυτές οι συνδυασμένες ανησυχίες μας παρακίνησαν να εξερευνήσουμε άλλες μεθόδους από την πρόσφατη βιβλιογραφία για να ρυθμίσουμε τα νευρωνικά γλωσσικά μοντέλα μας. Ευτυχώς, κατά τη διάρκεια του τελευταίου έτους, ο τομέας της έρευνας στην επεξεργασία φυσικής γλώσσας έχει αναπτύξει μια σειρά μεθόδων για να μειώσει το κόστος προσαρμογής της συμπεριφοράς των προεκπαιδευμένων γλωσσικών μοντέλων.

Ρύθμιση Προτροπής

Η αρχική προσέγγιση που ακολουθήσαμε ονομάζεται Ρύθμιση Προτροπής ή Μαλακή Προτροπή (Lester et al. 2021). Σε αυτή τη μέθοδο, οι παράμετροι του δικτύου από την προεκπαίδευση διατηρούνται σταθερές. Αντίθετα, προσθέτουμε έναν μικρό αριθμό εκπαιδεύσιμων ενσωματωμένων διανυσμάτων (συνήθως 10 έως 20) μπροστά από τα εισερχόμενα αναγνωριστικά προτροπής, και ρυθμίζουμε αυτές τις ενσωματώσεις με το συνηθισμένο αντικείμενο μοντελοποίησης γλώσσας σε ένα σύνολο δεδομένων εξατομίκευσης. Αυτές οι ενσωματώσεις δεν αντιπροσωπεύουν αναγνωριστικά γλώσσας; μπορούμε να τις σκεφτούμε ως μια πυκνή αποθήκη συμφραζομένων που το δίκτυο μπορεί να συνθήκει—μέσω του μηχανισμού προσοχής—καθώς κάνει προβλέψεις σχετικά με τα αναγνωριστικά στη σειρά.


Η ρύθμιση προτροπής προσθέτει μόνο ένα μικρό κόστος χρόνου εκτέλεσης στο μοντέλο, καθώς οι μαλακές προτροπές είναι σε εύρος kilobyte και μπορούν να εκτελούνται παράλληλα μέσω του δικτύου. Αυτά τα χαρακτηριστικά τα καθιστούν ελκυστικά για την εξυπηρέτηση πολλών ταυτόχρονων χρηστών, όπως έχουν δείξει οι πρόσφατες αναπτύξεις της τεχνικής σε AI storytelling. Ωστόσο, η ενσωμάτωση μαλακών προτροπών σε δημοφιλή πλαίσια όπως το transformers της HuggingFace είναι περίπλοκη, καθώς οι διεπαφές είναι σε μεγάλο βαθμό σχεδιασμένες για να λειτουργούν σε σειρές αναγνωριστικών αντί για πυκνά διανύσματα. Επιπλέον, καθώς προστίθενται περισσότερα συμφραζόμενα μεταξύ της μαλακής προτροπής και της παραγωγής, αρχίζουμε να βλέπουμε ανισορροπίες μεταξύ της δύναμης της συνθήκης στη μαλακή προτροπή και στο πλαίσιο των αναγνωριστικών. Η διατήρηση της ικανότητας να προσθέτουμε ευέλικτα εκατοντάδες αναγνωριστικά συμφραζομένων σε χρόνο εκτέλεσης ήταν σημαντική για εμάς, καθώς παρέχει επιπλέον λεπτομερείς μοχλούς ελέγχου στη διαδικασία συγγραφής στοιχείων. Εάν θέλουμε να καθοδηγήσουμε το μοντέλο να εστιάσει σε περιεχόμενο από μια συγκεκριμένη σελίδα ενός εγχειριδίου, ή να συγγράψει ένα στοιχείο κατανόησης κειμένου, ή να παρέχει παραδείγματα λίγων δειγμάτων, η μακροχρόνια συμφραζόμενη προσαρμογή είναι σημαντική.

Προσαρμογείς Χαμηλής Ραβδοσκοπίας (LoRA)

Αργότερα μεταβήκαμε σε μια μέθοδο που ονομάζεται LoRA ή Προσαρμογείς Χαμηλής Ραβδοσκοπίας (Hu et al. 2021). Αυτή η τεχνική αναπτύχθηκε από ερευνητές της Microsoft που εργάζονται σε μοντέλα μεγέθους GPT-3, και βασίζεται σε προηγούμενες προσεγγίσεις προσαρμογέων. Εάν σκεφτούμε έναν μετασχηματιστή ως σταδιακά να βελτιώνει τις εσωτερικές καταστάσεις των αναγνωριστικών του με κάθε υπολειμματικό επίπεδο, η έννοια ενός προσαρμογέα είναι να προσθέσει μια μικρή, εξαρτώμενη από την είσοδο δέλτα (αρχικοποιημένη σε no-op) σε αυτές τις καταστάσεις σε ένα δεδομένο επίπεδο. Αυτός ο ήπιος ενθουσιασμός είναι ικανός να ρυθμίζει τη συμπεριφορά του προς τα κάτω, ενισχύοντας, ας πούμε, τα μέρη της εισόδου που σχετίζονται με την εργασία.


Οι προσαρμογείς χαμηλής ραβδοσκοπίας είναι ένας τύπος προσαρμογέα που στοχεύει σε έναν υποχώρο χαμηλής ραβδοσκοπίας, ο οποίος μειώνει τον αριθμό των νέων παραμέτρων που πρέπει να εκπαιδευτούν (από D2 σε 2 × D × r, όπου D είναι χιλιάδες). Όπως και με τις μαλακές προτροπές, κρατάμε τις αρχικές παραμέτρους του δικτύου παγωμένες για να διατηρήσουμε όποια γνώση περιέχουν από την προεκπαίδευση, και μόνο προσαρμόζουμε αυτές τις νέες παραμέτρους προσαρμογέα. Σε εσωτερικές δοκιμές μας, έχουμε δει καλούς δείκτες από το LoRA. Πέρα από την ικανότητα να ρυθμίζουμε μεγάλα μοντέλα με μικρούς προϋπολογισμούς υλικού, τα μοντέλα με ενσωματωμένα επίπεδα προσαρμογέων διατηρούν επίσης πολύ από την αρχική τους ικανότητα λίγων δειγμάτων ενώ προσαρμόζονται στον στόχο τομέα. Σημαντικά, η ενσωμάτωσή τους σε άλλα πλαίσια είναι εύκολη, καθώς μπορούμε απλώς να αντικαταστήσουμε υπάρχοντα γραμμικά επίπεδα με γραμμικά + επίπεδα προσαρμογέα όπως απαιτείται.

Προχωρώντας Μπροστά

Για να δώσουμε μια γεύση για τη φύση των βελτιώσεων που έχουμε δει στις εξερευνήσεις μας, παρακάτω μοιραζόμαστε μια μικρή επιλογή γενεών από μοντέλα που εκπαιδεύτηκαν με διαφορετικές προσεγγίσεις ρύθμισης. Αυτά τα στοιχεία δημιουργήθηκαν όλα χρησιμοποιώντας τις ίδιες τρεις εισερχόμενες προτροπές που αφορούν την παροχή φροντίδας υγείας: η πρώτη εστιαζόταν στην προτεραιότητα των αναγκών πολλών πελατών και η δεύτερη στην ανάληψη δράσης σε ομαδικό περιβάλλον.

Στοιχείο #1: Μια νοσοκόμα αξιολογεί έναν πελάτη που προγραμματίζεται για εξωτερική χειρουργική επέμβαση. Ποιο από τα παρακάτω περιστατικά θα αξιολογήσει η νοσοκόμα επόμενο; (A) Ένας ασθενής με διαβήτη τύπου 1 (B) Ένας ασθενής με οξεία παγκρεατίτιδα (C) Ένας ασθενής που απαιτεί ενδοφλέβια αντιβιοτική θεραπεία (D) Ένας ασθενής με νόσο του Crohn Στοιχείο #2: Ένας πελάτης εισάγεται στο νοσοκομείο με διάγνωση συμφορητικής καρδιοπάθειας. Η μητέρα του πελάτη αρνείται τη θεραπεία. Ποια από τις παρακάτω ενέργειες θα πρέπει να αναλάβει η νοσοκόμα; (A) Να ειδοποιήσει τον πάροχο για την κατάσταση. (B) Να ελέγξει τη λίστα φαρμάκων του ασθενούς. (C) Να ελέγξει το ιατρικό αρχείο του πελάτη. (D) Να ειδοποιήσει τον γιατρό του πελάτη για την κατάσταση του πελάτη.

Στοιχείο #3: Μια νοσοκόμα αξιολογεί έναν ασθενή στην παιδιατρική μονάδα. Ο πελάτης είναι προγραμματισμένος για διαγνωστική εργασία, συμπεριλαμβανομένης μιας ακτινογραφίας θώρακα. Ποιο από τα παρακάτω περιστατικά θα πρέπει να σχεδιάζει να αξιολογήσει η νοσοκόμα επόμενο; (A) Ένα παιδί που έχει πνευμονία και έχει πυρετό (B) Ένα παιδί που έχει εξάνθημα και δεν ανταγωνίζεται σε φάρμακο (C) Ένα παιδί που έχει πυρετό και έχει θερμοκρασία >100.4 (D) Ένα παιδί που έχει πυρετό και εξάνθημα Στοιχείο #4: Ένας πελάτης με νεφρική ανεπάρκεια είναι στο νοσοκομείο και προγραμματίζεται να υποβληθεί σε μεταμόσχευση νεφρού. Ο πελάτης έχει μια ισχυρή πεποίθηση ότι ο χειρουργός μεταμόσχευσης είναι ανίκανος. Ο πελάτης αρνείται να επιτρέψει σε γιατρό από άλλο νοσοκομείο να εκτελέσει τη μεταμόσχευση. Ποια από τις παρακάτω ενέργειες θα πρέπει να αναλάβει η υπεύθυνη νοσοκόμα; (A) Να πάρει μια δήλωση από τον πελάτη ότι ο χειρουργός μεταμόσχευσης είναι ικανός και να την δώσει στον χειρουργό μεταμόσχευσης. (B) Να ζητήσει από τον πελάτη μια υπογεγραμμένη δήλωση για να τεκμηριώσει την αξίωσή της. (C) Να επικοινωνήσει με τον χειρουργό μεταμόσχευσης και να μάθει γιατί ο πελάτης αρνείται να επιτρέψει στον χειρουργό από άλλο νοσοκομείο να εκτελέσει τη μεταμόσχευση. (D) Να ενημερώσει τον χειρουργό μεταμόσχευσης ότι ο πελάτης αρνείται τη μεταμόσχευση.

Στοιχείο #5: Μια νοσοκόμα προγραμματίζει να αναθέσει πελάτες σε διάφορους σταθμούς κλίνης. Ποιο από τα παρακάτω περιστατικά θα πρέπει να αναθέσει η νοσοκόμα στον σταθμό κλίνης που είναι πιο κοντά στο σταθμό των νοσοκόμων; (A) Ένας πελάτης με υποψία διάγνωσης πνευμονικής εμβολής και απαιτεί μια υπολογιστική τομογραφία (CT) (B) Ένας πελάτης που χρειάζεται βοήθεια με μια κένωση (C) Ένας πελάτης που έχει επείγουσα ένδειξη για ακτινογραφία θώρακα (D) Ένας πελάτης που απαιτεί ακτινογραφία θώρακα επειδή έχει βήχα Στοιχείο #6: Μια LPN φροντίζει έναν πελάτη με καθετήρα και ζητά από τη νοσοκόμα να την βοηθήσει να καθαρίσει τον καθετήρα. Ποια από τις παρακάτω ενέργειες θα πρέπει να αναλάβει η νοσοκόμα; (A) Να εξηγήσει στον πελάτη ότι θα χρειαστεί να παρέχει το καθαριστικό και θα χρειαστεί να αποκτήσει τη συναίνεση του πελάτη για τη διαδικασία. (B) Να ζητήσει βοήθεια από την LPN. (C) Να προσφέρει να βοηθήσει τον πελάτη να καθαρίσει τον καθετήρα. (D) Να διαβεβαιώσει την LPN ότι η νοσοκόμα θα την βοηθήσει.

Μπορούμε να παρατηρήσουμε ότι, ενώ τα καλύτερα στοιχεία από το βασικό μοντέλο είναι σε μεγάλο βαθμό ρέοντα και λογικά συνεπή, τείνουν να είναι λιγότερο περιορισμένα (όπως στο #1) ή ζητούν πολύ λίγη γνώση του τομέα της νοσηλευτικής (όπως στο #3). Σε σύγκριση με τα βασικά στοιχεία, τα στοιχεία από τα μοντέλα ρύθμισης προτροπής και χαμηλής ραβδοσκοπίας περιέχουν περισσότερες λεπτομέρειες στα ερεθίσματά τους, τους πυρήνες και τις επιλογές. Το αντικείμενο είναι σχετικό με τον τομέα, καλώντας για συγκεκριμένες γνώσεις στη διαχείριση της φροντίδας υγείας και όχι απλώς βασισμένο σε γνώσεις γενικού περιεχομένου. Επιπλέον, τα στοιχεία από το μοντέλο χαμηλής ραβδοσκοπίας έχουν πιο συνεπή μορφή. Για παράδειγμα, τα στοιχεία αναφέρονται σταθερά στον “πελάτη” αντί στον “ασθενή”, σύμφωνα με τη γλώσσα που πιθανώς θα εμφανίζεται σε αξιολογήσεις (συγκρίνετε το #5 με το #1 και το #3). Παρακολουθεί επίσης με επιτυχία αναφορές σε πολλαπλά άτομα εντός ενός σεναρίου (συγκρίνετε το #6 με το #4).

Οι βελτιώσεις στην κάλυψη τομέα, τη στιλιστική συνέπεια και τη λογική συνοχή μπορούν να μεταφραστούν σε σημαντικές βελτιώσεις στην χρησιμότητα των νευρωνικών γλωσσικών μοντέλων. Αυτό είναι μόνο η αρχή: καθώς η τεχνολογία ωριμάζει, θα ανακαλυφθούν ακόμη περισσότερες μέθοδοι για να δημιουργηθούν εξατομικευμένα, ελεγχόμενα μοντέλα φυσικής γλώσσας σε κλίμακα. Και καθώς αυτές οι μέθοδοι θα ανακαλυφθούν, θα συνεχίσουμε να ενσωματώνουμε τα καλύτερα από την ακαδημαϊκή κοινότητα, τη βιομηχανία και την ανεξάρτητη έρευνα στα προϊόντα της Finetune.

 

Ειλικρινείς ευχαριστίες στον Nick Koprowicz, Jesse Hamer, Saad Khan και Ogden Morse για την παροχή ευγενικών, χρήσιμων σχολίων στην ανάπτυξη αυτού του blog post.

 

Βιβλιογραφία

Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., … & Chen, W. (2021). Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.

Lester, B., Al-Rfou, R., & Constant, N. (2021). The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691.