بواسطة تشارلز فوستر
في Finetune، نبني حلول الذكاء الاصطناعي لمعالجة بعض من أكثر المشاكل تحديًا في تكنولوجيا التعليم، بما في ذلك إنشاء المحتوى التلقائي وتصنيف الموارد التعليمية الممكّنة بالذكاء الاصطناعي وتوصياتها. نظرًا لأن الموضوعات التي يجب أن تتعامل معها أدواتنا تمتد من المرحلة الابتدائية إلى الثانوية وحتى تطوير القوى العاملة، فإننا نستثمر بشكل كبير في طرق تسمح لنا بتوسيع نطاق وعمق ما تغطيه نماذجنا. المكونات الرئيسية لهذا النهج هي أساليب مرنة لتدريب الشبكات العصبية المتخصصة في المجالات التي تكون فيها النماذج العامة غير كافية. في هذه المدونة، أود أن أشارككم بعضًا من رحلتنا في استكشاف هذه الأساليب.
التعديل الدقيق
يتضمن التعديل الدقيق النماذج اللغوية العصبية عادة تحسين جميع المعلمات القابلة للتدريب في وقت واحد، والتي يمكن أن تصل إلى العديد من المليارات لشبكات مثل GPT-J. في مقاييس مثل هذه، تكون عمليات التعديل الدقيق والاستدلال غير بسيطة، مما يجعل النشر على نطاق واسع لهذه النماذج أمرًا صعبًا. في تحقيقاتنا، بدا أن بعض القضايا الرئيسية هي الأكثر أهمية:
- إن تشغيل هذه النماذج التحويلية بالفعل يضغط على حدود ذاكرة GPU (VRAM)، وخلال عملية التعديل الدقيق هناك علاقة مباشرة بين عدد المعلمات التي يتم تحسينها وكمية الذاكرة الإضافية المستخدمة.
- من خلال تعديل جميع المعلمات في الشبكة، قد يتم تعطيل تدفق المعلومات الذي تم تعلمه خلال التدريب المسبق، مما يؤدي إلى النسيان وفقدان القدرة على التعلم من عدد قليل من الأمثلة.
- خدمة نموذج مخصص بحجم عدة غيغابايت لكل حالة استخدام ستخلق تأخيرات وأعباء تكاليف غير مقبولة.
هذه المخاوف مجتمعة دفعتنا لاستكشاف طرق أخرى من الأدبيات الحديثة لتعديل نماذج اللغة العصبية لدينا. لحسن الحظ، خلال العام الماضي، طورت دائرة أبحاث معالجة اللغة الطبيعية مجموعة من الطرق لتقليل تكلفة تخصيص سلوك نماذج اللغة المدربة مسبقًا.
تعديل التحفيز
النهج الأصلي الذي تبنينا هو ما يسمى بـ تعديل التحفيز أو التحفيز الناعم (ليستر وآخرون 2021). في هذه الطريقة، يتم تجميد معلمات الشبكة من التدريب المسبق. بدلاً من ذلك، نضيف عددًا صغيرًا من المتجهات القابلة للتعلم (عادةً من 10 إلى 20) أمام رموز التحفيز المدخلة، ونقوم بتعديل هذه المتجهات باستخدام الهدف المعتاد لنمذجة اللغة على مجموعة بيانات التعديل الدقيق. هذه المتجهات لا تمثل رموز اللغة؛ يمكننا التفكير فيها بدلاً من ذلك كخزنة كثيفة للسياق التي يمكن للشبكة أن تعتمد عليها—من خلال آلية الانتباه—بينما تقوم بعمل تنبؤات حول الرموز في التسلسل.
يضيف تعديل التحفيز تكلفة تشغيل صغيرة فقط للنموذج، حيث أن التحفيزات الناعمة في نطاق الكيلوبايت ويمكن تشغيلها عبر الشبكة بشكل متوازي. تجعل هذه الميزات من هذه الطريقة جذابة لخدمة العديد من المستخدمين المتزامنين، كما أظهرت النشر الأخيرة لهذه التقنية في قصص الذكاء الاصطناعي. ومع ذلك، فإن دمج التحفيزات الناعمة في أطر العمل الشائعة مثل النماذج التحويلية من الأمور المعقدة، حيث أن الواجهات مصممة في الغالب للعمل على تسلسلات من مؤشرات الرموز بدلاً من المتجهات الكثيفة. بالإضافة إلى ذلك، مع إضافة المزيد من السياق بين التحفيز الناعم والتوليد، نبدأ في رؤية اختلالات بين قوة الاعتماد على التحفيز الناعم وسياق الرموز. كان من المهم بالنسبة لنا الاحتفاظ بالقدرة على إضافة مئات الرموز من السياق بشكل مرن أثناء التشغيل، حيث يوفر ذلك أدوات إضافية للتحكم في عملية تأليف العناصر. إذا أردنا توجيه النموذج للتركيز على محتوى من صفحة معينة من كتاب دراسي، أو لتأليف عنصر لفهم القراءة، أو لتقديم أمثلة من عدد قليل من الأمثلة، فإن التخصيص السياقي الطويل مهم.
المهايئات منخفضة الرتبة (LoRA)
انتقلنا لاحقًا إلى طريقة تسمى LoRA أو المهايئات منخفضة الرتبة (هو وآخرون 2021). تم تطوير هذه التقنية من قبل باحثين في مايكروسوفت الذين يعملون على نماذج بحجم GPT-3، وتبني على طرق المهايئات السابقة. إذا اعتبرنا النموذج التحويلي يقوم بتحسين حالات الرموز الكامنة الخاصة به بشكل تدريجي مع كل طبقة متبقية، فإن مفهوم المهايئ هو إضافة دلتا صغيرة تعتمد على المدخلات (مبدئيًا إلى لا شيء) إلى تلك الحالات عند طبقة معينة. هذه الدفعه اللطيفة قادرة بعد ذلك على تعديل سلوكها في الأسفل، من خلال، على سبيل المثال، التأكيد على الأجزاء من المدخلات التي تتعلق بالمهمة.
المهايئات منخفضة الرتبة هي نوع من المهايئات التي تستهدف فضاء منخفض الرتبة، مما يقلل من عدد المعلمات الجديدة التي نحتاج إلى تدريبها (من D2 إلى 2 × D × r، حيث D في الآلاف). كما هو الحال مع التحفيز الناعم، نحتفظ بالمعلمات الأصلية للشبكة مجمدة للحفاظ على أي معرفة تحتوي عليها من التدريب المسبق، ونقوم فقط بضبط هذه المعلمات الجديدة للمهايئات. في اختباراتنا الداخلية، رأينا مؤشرات جيدة من LoRA. بالإضافة إلى تمكيننا من ضبط نماذج كبيرة على ميزانيات أجهزة صغيرة، تحتفظ النماذج التي تحتوي على طبقات مهايئات بالكثير من قدرتها الأصلية على التعلم من عدد قليل من الأمثلة بينما لا تزال تتكيف مع المجال المستهدف. من الجدير بالذكر أن دمج المهايئات منخفضة الرتبة في أطر أخرى أمر بسيط، حيث يمكننا ببساطة استبدال الطبقات الخطية الحالية بطبقات خطية + مهايئات حسب الحاجة.
المضي قدمًا
لإعطائكم فكرة عن نوع التحسينات التي رأيناها في استكشافاتنا، نشارك أدناه مجموعة صغيرة من التوليدات من نماذج تم تدريبها باستخدام طرق تعديل مختلفة. تم إنشاء هذه العناصر جميعها باستخدام نفس ثلاثة محفزات مدخلة تتعلق بتقديم رعاية التمريض: الأولى تركز على إعطاء الأولوية لاحتياجات عدة عملاء والثانية على اتخاذ إجراء في بيئة فريق.
العنصر #1: ممرضة تقوم بتقييم عميل مقرر له جراحة خارجية. أي من المرضى التاليين ستقوم الممرضة بتقييمه بعد ذلك؟ (A) مريض يعاني من مرض السكري من النوع 1 (B) مريض يعاني من التهاب البنكرياس الحاد (C) مريض يحتاج إلى علاج بالمضادات الحيوية عن طريق الوريد (D) مريض يعاني من مرض كرون العنصر #2: تم إدخال عميل إلى المستشفى بتشخيص فشل القلب الاحتقاني. ترفض والدة العميل العلاج. أي من الإجراءات التالية يجب أن تتخذها الممرضة؟ (A) إبلاغ المزود بالوضع. (B) التحقق من قائمة أدوية المريض. (C) التحقق من السجل الطبي للعميل. (D) إبلاغ طبيب العميل بحالة العميل.
العنصر #3: تقوم ممرضة بتقييم مريض في وحدة الأطفال. العميل مقرر له تقييم تشخيصي، بما في ذلك صورة شعاعية للصدر. أي من المرضى التاليين يجب أن تخطط الممرضة لتقييمه بعد ذلك؟ (A) طفل يعاني من التهاب رئوي ويعاني من حمى (B) طفل لديه طفح جلدي ولا يستجيب للعلاج (C) طفل يعاني من حمى ودرجة حرارة >100.4 (D) طفل يعاني من حمى وطفح جلدي العنصر #4: عميل مصاب بفشل كلوي في المستشفى ومقرر له إجراء زراعة كلى. يعتقد العميل بقوة أن جراح الزراعة غير كفء. يرفض العميل السماح لطبيب من مستشفى آخر بإجراء الزراعة. أي من الإجراءات التالية يجب أن تتخذها الممرضة المسؤولة؟ (A) أخذ بيان من العميل بأن جراح الزراعة كفء وإعطائه لجراح الزراعة. (B) طلب بيان موقع من العميل لدعم ادعائها. (C) الاتصال بجراح الزراعة ومعرفة سبب رفض العميل السماح للجراح من مستشفى آخر بإجراء الزراعة. (D) إبلاغ جراح الزراعة بأن العميل يرفض الزراعة.
العنصر #5: تخطط ممرضة لتعيين عملاء لمحطات السرير المختلفة. أي من العملاء يجب أن تعينه الممرضة للمحطة الأقرب إلى محطة الممرضات؟ (A) عميل لديه تشخيص مشتبه فيه لانسداد رئوي ويحتاج إلى تصوير مقطعي محوسب (CT) (B) عميل يحتاج إلى مساعدة في حركة الأمعاء (C) عميل لديه مؤشر طارئ لأخذ صورة شعاعية للصدر (D) عميل يحتاج إلى صورة شعاعية للصدر لأنه يعاني من سعال العنصر #6: ممارس ممرضة (LPN) تعتني بعميل لديه قسطرة بولية دائمة وتطلب من الممرضة مساعدتها في تنظيف القسطرة. أي من الإجراءات التالية يجب أن تتخذها الممرضة؟ (A) شرح للعميل أنه سيتعين عليه توفير محلول التنظيف وسيحتاج إلى الحصول على موافقة العميل للإجراء. (B) طلب المساعدة من الممارس الممرضة. (C) عرض المساعدة للعميل في تنظيف القسطرة. (D) طمأنة الممارس الممرضة بأن الممرضة ستساعدها.
يمكننا أن نلاحظ أنه بينما العناصر الأفضل من النموذج الأساسي تتسم بالبطلاقة والتماسك المنطقي، فإنها تميل إلى أن تكون غير مقيدة (كما في #1) أو تتطلب القليل من المعرفة في مجال التمريض (كما في #3). بالمقارنة مع العناصر الأساسية، تحتوي العناصر من نماذج تعديل التحفيز والمهايئات منخفضة الرتبة على مزيد من التفاصيل في المحفزات، والأصول، والخيارات. الموضوع ذو صلة بالمجال، ويتطلب معرفة محددة في إدارة رعاية التمريض بدلاً من الاعتماد فقط على المعرفة الخلفية. علاوة على ذلك، تحتوي العناصر من نموذج المهايئ منخفض الرتبة على شكل أكثر اتساقًا. على سبيل المثال، تشير العناصر باستمرار إلى "العميل" بدلاً من "المريض"، وفقًا للغة التي من المحتمل أن تظهر في التقييمات (قارن #5 مع #1 و #3). كما أنها تتعقب بنجاح الإشارات إلى عدة أفراد داخل السيناريو (قارن #6 مع #4).
يمكن أن تترجم التحسينات في تغطية المجال، والتناسق الأسلوبي، والتماسك المنطقي إلى تحسينات كبيرة في فائدة نماذج اللغة العصبية. هذه هي البداية فقط: مع نضوج التكنولوجيا، سيتم اكتشاف المزيد من الطرق لإنشاء نماذج لغوية طبيعية مخصصة، قابلة للتحكم على نطاق واسع. وعندما يتم اكتشاف تلك الطرق، سنستمر في دمج الأفضل من الأكاديميا، والصناعة، والبحوث المستقلة في منتجات Finetune.
شكر خاص إلى نيك كوبروفيتش، وجيسي هامر، وسعد خان، وأوغدن مورس لتقديمهم ملاحظات لطيفة ومفيدة خلال تطوير هذه المدونة.
المراجع
هو، إ. ج.، شين، ي.، واليس، ب.، ألين-زهو، ز.، لي، ي.، وانغ، س.، … & تشين، و. (2021). لورا: التكيف منخفض الرتبة لنماذج اللغة الكبيرة. arXiv preprint arXiv:2106.09685.
ليستر، ب.، آل-رفوع، ر.، & كونستانت، ن. (2021). قوة النطاق لتعديل التحفيز بكفاءة المعلمات. arXiv preprint arXiv:2104.08691.