بقلم تشارلز فוסטר وجيسي هامر
المقدمة
منذ عام 2021، شهدت شركة Finetune إمكانيات نماذج اللغة الكبيرة (LLMs) في تحويل طريقة عمل المحترفين في التعليم والتقييم. لقد كان الوتيرة الدرامية للتقدم في هذا المجال تعني أن المفاهيم يمكن أن تنتقل من تجربة بحثية في أسبوع إلى منتج شائع في الأسبوع التالي.
لذا لم يكن من المفاجئ أن نرى مدى حماس الرد على ChatGPT: في عرض توضيحي واحد، فهم الجميع أننا نقف على عتبة شيء عظيم. نظرًا للحماس والشك الحاليين، قد يتساءل المرء: كيف تتناسب Finetune Generate الحاصلة على براءة الاختراع مع هذا المشهد؟ إذا كنت أستطيع فقط أن أطلب من دردشة آلية عادية أن تقوم بكتابة لي، فلماذا أحتاج إلى أي شيء آخر؟
نحب أن نفكر في نماذج اللغة الكبيرة كنماذج أساسية: أنظمة ذكاء اصطناعي تتيح لها تدريباتها الشاملة والمتنوعة أن تعمل كأساس لمجموعة واسعة من حالات الاستخدام. تقوم بعض المنظمات بما في ذلك Anthropic وEleutherAI وOpenAI (مطور ChatGPT) بتدريب هذه النماذج الضخمة وتوفيرها للاستخدام من قبل الآخرين. لكن النماذج نفسها ليست سوى الطبقة الأساسية: لديها إمكانيات أكبر بكثير عندما تُنسج في نظام أكبر، مصمم لتطبيق محدد. تمامًا مثل تقنيات الاستخدام العام الأخرى مثل الويب، قد يستغرق الأمر جيلًا كاملًا من الباحثين ورجال الأعمال لبناء أنظمة على قمة ذلك، لكي تتحقق إمكانياتها. في مقابلة مع إيزرا كلاين، عبر سام التمان، الرئيس التنفيذي لشركة OpenAI، عن شعور مشابه:
ما أعتقد أننا لسنا الأفضل في العالم فيه، ولا نريد حقًا تحويل انتباهنا [عن]، هو كل المنتجات الرائعة التي ستُبنى على [نماذج اللغة الكبيرة]. لذلك نفكر في دورنا كأن نكتشف كيفية بناء أنظمة الذكاء الاصطناعي الأكثر قدرة في العالم ثم جعلها متاحة لأي شخص يتبع قواعدنا لبناء كل هذه الأنظمة عليها.
التيمان، 2023
من خلال دمج نماذج LLMs مع تقنيات أكثر تقليدية مثل قواعد المعرفة وواجهات البشر في الحلقة، يمكننا إنشاء مجموعات تكنولوجية ناضجة، أو تطبيقات مولدة، تسمح لنا بإطلاق إمكانيات LLMs لإنشاء أدوات ذكية في جميع أنواع مجالات التطبيق. Generate وChatGPT هما مثالان مبكران على ذلك.
مع وضع هذا الإطار في الاعتبار، دعونا نقارن بين ChatGPT وFinetune Generate كتطبيقات مولدة مبنية على GPT-3، من منظور تطوير العناصر.
أهداف التصميم
كل من ChatGPT وFinetune Generate تهدفان إلى توفير واجهة أكثر بديهية للمستخدمين للتفاعل مع نماذج مولدة مثل GPT-3. بخلاف ذلك، فإن التطبيقين مختلفين تمامًا. لدى OpenAI مهمة لبناء أنظمة ذكاء اصطناعي آمنة وعامة للجميع، وقد بُني ChatGPT ليمنح الجمهور العام لمحة عن ما تستطيع نماذج اللغة فعله مع اللغة الطبيعية، ولتكون بمثابة صندوق رمل للمطورين لاختبار أفكار جديدة.
في Finetune، على الرغم من أننا نتفاعل مع المجتمع البحثي الأوسع حول ابتكارات نماذج اللغة (انظر تعاوننا مع OpenAI على تحسينات البحث الدلالي)، لم يكن هدفنا من Generate هو بناء أنظمة عامة جديدة، بل بناء أفضل أداة ممكنة لكتابة العناصر بمساعدة الذكاء الاصطناعي. لهذا السبب تم تصميم Generate خصيصًا مع كتّاب العناصر في الاعتبار، حول أفضل ممارساتهم، لغتهم، وتدفقات العمل الخاصة بهم. كانت جميع قيود التصميم لدينا مبنية على التفاعل مع مجموعة واسعة من المستخدمين الأوائل. كل نموذج Generate نبنيه مصمم ليعكس الهيكل الفريد لكل تقييم، ويمنح المستخدم التحكمات المحددة المطلوبة لمهمتهم. علاوة على ذلك، يمكن لفرق كاملة من كتّاب العناصر التعاون في تطوير العناصر باستخدام Generate، مع وظيفة مدمجة تسمح بإدارة الأذونات والتصدير المنظم إلى تنسيقات مثل QTI.
التخصص
تمر نماذج اللغة الكبيرة بمرحلة تدريب أولية تُسمى التدريب المسبق، حيث تتعلم في جلسة طويلة من ملايين الصفحات من الويب، والكتب، ومصادر أخرى. بسبب تكلفة حساب التعلم من تلك المدخلات، فإن معرفتها عادة ما تكون ثابتة بعد ذلك. نظرًا لأنها عبارة عن غلاف حواري ضيق فوق GPT-3، فإن ChatGPT لديها أيضًا قاعدة معرفية ثابتة لا يمكن تعديلها. إذا أراد فني ما المساعدة بشأن نظام خاص، فمن المحتمل أن يكون هذا النموذج غير مفيد لهم، لأن النموذج ليس لديه طريقة لتعلم موضوع جديد.
شركاء Finetune يمتدون من التعليم الابتدائي والثانوي إلى التعليم العالي إلى الترخيص والشهادات، ويشملون مجموعة واسعة من المجالات.
لذا، من الضروري بالنسبة لنا أن النماذج التي نبنيها لهم يجب أن تتعلم من محتواهم الفريد - حتى لو كان هذا المحتوى متخصصًا أو جديدًا للغاية - ويجب أن تكون قابلة للتحديث بالمواد الجديدة عند توفرها.
لجعل ذلك ممكنًا، قامت فرق البحث والتطوير في الذكاء الاصطناعي لدينا بتحسين أساليبنا الخاصة لإدماج المعرفة الجديدة بكفاءة في نماذج اللغة واستهدافها وفقًا للإرشادات المحددة لتقييم معين. علاوة على ذلك، يتعلم Generate ديناميكيًا بمرور الوقت لاستهداف العناصر بشكل أفضل لمحتوى كل عميل وأسلوب مهامهم المحددة. على مدار هذا العام، نخطط لإطلاق عدة ميزات أخرى ستستمر في تحسين القدرة على التحكم والتكيف في نماذجنا، من استهداف العبارات الرئيسية إلى التحكم الدقيق في التعقيد المعرفي وما إلى ذلك.
الأمان
كعرض توضيحي تجريبي، تم تصميم ChatGPT لاستنباط التعليقات حول كيفية تفاعل الناس مع نماذج اللغة، بحيث يمكن لـ OpenAI تحسين التكنولوجيا الأساسية التي تدعم واجهات برمجة التطبيقات الخاصة بها. بسبب ذلك، عندما يتحدث المستخدمون مع ChatGPT، يتم تخزين تلك التفاعلات وقد تُدرج في مجموعات بيانات التدريب المستقبلية، للمساعدة في تدريب الجيل التالي من النماذج. وهذا يعني أنه إذا قمت بتطوير عنصر تقييم باستخدام ChatGPT، فقد تعرف النماذج المستقبلية عنه أو تحفظه، مما قد يكشف عن عناصر أسئلتك وأسلوبها بطرق لم تكن تقصدها، مما يعرض أمانها للخطر.
الأمان هو مصدر قلق رئيسي في تطوير العناصر.
تحتفظ Generate بالعناصر مؤمنة، محاطة بأسوار، حيث يصل كل عميل فقط إلى نماذجهم.
حتى داخل عميل واحد، يمكن تقييد المستخدمين للوصول فقط إلى عناصر معينة تم إنشاؤها. مع Generate، يكون العملاء دائمًا مالكي أي عناصر ينتجونها، بغض النظر عما إذا كانوا يقومون فقط بتجربة نموذج أولي أو قد اعتمدوا الأداة على نطاق واسع.
الثقة والدعم
الكثير مما يجعل استخدام LLM بشكل منتج صعبًا هو أنه عشوائي بشكل أساسي: اسأله نفس السؤال مرتين وسيوفر لك إجابتين مختلفتين. هذا يتعارض مع ما نتوقعه عادة من أدواتنا: نعتمد عليها لتكون موثوقة. هذا يؤدي إلى واحدة من أكثر المشكلات المستمرة مع ChatGPT وغيرها من أدوات LLM، وهي أنه من الصعب الوثوق بمخرجاتها عندما لا تعرف لماذا تم اختيار تلك المخرجات. هل كانت بناءً على الحقائق التي يتذكرها النموذج، أم الأكاذيب التي اخترعها النموذج، أم حتى من مصدر غير مرئي؟
المعايير المتعلقة بالثقة في التعليم والتقييم مرتفعة، أعلى بكثير من الدردشة الآلية العادية. العملاء يريدون أن يعرفوا أن العناصر التي ينتجونها من خلال Generate هي بالفعل جديدة، تستند إلى موادهم الخاصة، وصحيحة.
تعمل فرق القياس والبحث والتطوير في الذكاء الاصطناعي لدينا مع كل عميل لإنشاء نماذج مصممة وفقًا لاحتياجاتهم، ولإدماج تعليقاتهم في تحسينات النموذج المستمرة.
نقوم أيضًا بإجراء فحوصات يدوية وأوتوماتيكية للتحقق من أن الاقتراحات التي تقدمها Generate تتوافق مع مواصفات العميل. سنقوم قريبًا بإطلاق ميزة جديدة ستسمح للمستخدمين بالتحقق بسهولة من العناصر المولدة مقابل المواد المرجعية، بحيث يمكنهم الحصول على تأكيد فوري أن العناصر التي ينتجونها مستندة إلى الحقائق.
الخاتمة
هذا وقت مثير حيث سيتم بناء مئات من التطبيقات المولدة، جميعها تسعى لتحقيق حالات استخدام محتملة مختلفة لنماذج LLM. أثناء استكشافها كشخص يهتم بشدة بجودة التقييم في التعليم والشهادات والترخيص، نوصي دائمًا بأن تضع في اعتبارك الأسئلة التالية:
- لمن تم تصميم هذا التطبيق؟
- هل النموذج الذي يستخدمه هذا التطبيق تم تدريبه خصيصًا لما تحتاجه منظمتنا، بما في ذلك احتياجات الأمان لدينا؟
- كيف سيتم استخدام البيانات التي أقدمها؟
- هل أريد استثمار الوقت والمال لجعل نموذج عام خام قابلاً للاستخدام (مثل واجهة المستخدم المناسبة) وموثوقًا به من قبل خبراء المواد (SMEs) لدينا ليتم دمجه في سير العمل الخاص بنا وحالات الاستخدام عالية المخاطر؟
ما زلنا في الأيام الأولى لهذه التكنولوجيا المذهلة، لكن بالفعل مدى القدرات التي ستتيحها التطبيقات المولدة عبر صناعات متعددة أصبح واضحًا. كما هي الأصوات التي تعبر عن الحذر التي عبر عنها غاري ماركوس من جامعة نيويورك وآخرون.
في Finetune، نحن متحمسون جدًا لمواصلة عرض المزيد من الميزات في عامنا الثالث التي ستجعل Generate أكثر أداءً، أكثر موثوقية، وأكثر فائدة عبر جميع مجالات التعلم والتقييم.
تم التحديث في 29 أبريل 2025