大型語言模型與評估開發

Published on 1月 20,2023

Shutterstock 2520071063

查爾斯·福斯特和傑西·哈默

介紹

自2021年以來,在Finetune我們看到了大型語言模型(LLMs)在改變教育和評估專業人士工作方式方面的潛力。這一領域的快速進展意味著概念可以在一週內從研究玩具變成下一週的病毒產品。

因此,看到對ChatGPT的回應如此激動人心並不令人驚訝:在一次演示中,每個人都明白我們正站在某件偉大事物的門檻上。鑑於當前的興奮和不確定性,人們可能會想知道:專利的Finetune Generate如何融入這一局面?如果我可以隨便請一個通用的聊天機器人為我寫作,那麼我還需要其他東西嗎?

我們喜歡把大型語言模型視為基礎模型:其廣泛而多樣的訓練讓它們能夠作為各種用例的基礎。一些機構,包括Anthropic、EleutherAI和OpenAI(ChatGPT的開發者),訓練這些大型模型並使其對其他人可用。但這些模型本身僅僅是基層:當它們被編織進更大的系統中,並針對特定應用進行調整時,它們擁有大的潛力。就像其他通用技術(如網絡)一樣,可能需要整整一代研究人員和創業者在其上構建系統,才能實現其潛力。在與Ezra Klein的訪談中,OpenAI的首席執行官山姆·奧特曼表達了類似的觀點:

我認為我們並不是世界上最擅長的,也不想真正轉移我們的注意力[從]所有將在[大型語言模型]之上構建的精彩產品。因此,我們考慮我們的角色是找出如何構建世界上最強大的人工智能系統,然後使它們對任何遵循我們規則的人可用,以便在其上構建所有這些系統。

奧特曼,2023

通過將LLMs與更傳統的技術(如知識庫和人機交互界面)結合,我們可以創建成熟的技術堆棧或生成應用,使我們能夠釋放LLMs的能力,在各種應用領域創建智能工具。Generate和ChatGPT是這些的兩個早期示例。

在這一框架下,讓我們從項目開發的角度比較ChatGPT和Finetune Generate,這兩個生成應用都是基於GPT-3構建的。

設計目標

ChatGPT和Finetune Generate都旨在為用戶提供更直觀的界面,以便與像GPT-3這樣的生成模型進行交互。除此之外,這兩個應用在許多方面都相當不同。OpenAI的使命是為所有人構建安全的通用人工智能系統,並構建ChatGPT以讓公眾體驗語言模型在自然語言中能做的事情,以及作為建設者測試新想法的沙盒。

在Finetune,儘管我們確實與更廣泛的語言模型創新研究社群進行互動(參見我們與OpenAI的合作,以改進語義搜索),但我們的目標不是主要構建新的通用系統,而是構建最佳的人工智能輔助題目寫作工具。這就是為什麼Generate是專門針對題目寫作者設計的,圍繞他們的最佳實踐、語言和工作流程。所有的設計約束都是基於與各種早期採用者的互動。我們構建的每個Generate模型旨在反映每個評估的獨特結構,並為用戶提供其任務所需的具體控制。此外,整個題目寫作團隊可以使用Generate協作開發題目,並內置功能允許許可管理和結構化導出到QTI等格式。

特異性

大型語言模型經歷一個名為預訓練的初始訓練階段,在這個長時間的會話中,它們從來自網絡、書籍和其他來源的數百萬頁內容中學習。由於從這些輸入中學習的計算成本非常高,因此它們的知識通常在此之後是固定的。因為它是基於GPT-3的薄對話包裝,ChatGPT也有一個固定的知識庫,無法修改。如果,例如,一位技術人員想要獲得有關某個專有系統的幫助,這樣的模型可能對他們沒有幫助,因為該模型無法學習新的主題內容。

Finetune的合作夥伴從K-12到高等教育再到執照和認證,涵蓋了各種領域。

因此,對我們來說,為他們構建的模型必須從其獨特內容中學習——即使該內容是高度專業化或新穎的——並且必須能夠隨著新材料的出現而更新.

為了實現這一點,我們的人工智能研發團隊已經完善了我們的方法,以有效地將新知識納入語言模型,並將其針對評估的具體指導方針進行調整。此外,Generate會隨著時間的推移動態學習,以更好地針對每個客戶任務的具體內容和風格。今年我們計劃推出幾個新功能,將繼續改善我們模型的可控性和適應性,從關鍵短語標針對到對認知複雜性的細緻控制等。

安全性

作為一個實驗演示,ChatGPT旨在收集人們如何與語言模型互動的反饋,以便OpenAI可以改善支持其API的基本技術。因此,當用戶與ChatGPT交談時,這些互動會被存儲,並可能進入未來的訓練數據集,以幫助訓練下一代模型。這意味著,如果你使用ChatGPT開發一個評估項目,未來的模型可能會知道或記住它,可能會以你未打算的方式暴露你的項目和項目風格,從而危及其安全性。

安全性是在項目開發中的一個關鍵問題。

Generate保持項目安全,與每個客戶隔離,只有他們能訪問自己的模型.

即使在單個客戶內,用戶也可以被限制為僅訪問特定生成的項目。使用Generate,客戶始終是他們所產生的任何項目的擁有者,無論他們是僅僅嘗試一個初始模型還是已經在大規模採用該工具。

信任與支持

使用LLM的生產性困難在於它是根本隨機的:如果你問它同樣的問題兩次,它會給你兩個不同的答案。這違背了我們通常對工具的期望:我們依賴它們的可靠性。這導致了ChatGPT和其他LLM工具的一個持久問題,即當你不知道為什麼這些輸出被選擇時,很難相信它們的輸出。這是基於該模型記憶的事實,還是模型捏造的虛假信息,甚至是從某個未見源頭抄襲來的?

在教育和評估中,信任的標準很高,遠高於隨便的聊天機器人。客戶希望知道他們通過Generate產生的項目是真正新穎的,是基於他們自己的材料,並且是有效的。

我們的測量和人工智能研發團隊與每個客戶合作,創建適合其需求的模型,並將其反饋納入持續的模型改進中.

我們還進行手動和自動檢查,以驗證Generate提出的建議是否符合客戶的規範。我們將很快推出一個新功能,允許用戶輕鬆地將生成的項目與參考材料進行交叉參考,從而立即獲得所產生項目基於事實的信心。

結論

這是一個令人興奮的時期,數百個生成應用將被構建出來,所有這些應用都在追求LLMs的不同潛在用例。作為一個深切關心教育、認證和執照評估質量的人,在探索它們時,我們建議始終保持以下問題在心中:

  • 這個應用是為誰設計的?
  • 這個應用使用的模型是否專門針對我的組織需求進行訓練,包括我們的安全需求?
  • 我提供的數據將如何使用?
  • 我是否想投入時間和金錢使一個原始的通用模型可用(例如,適當的UI),並得到我們的主題專家(SMEs)的信任,以便將其集成到我們的工作流程和高風險用例中?

我們仍處於這項深具影響力技術的早期階段,但生成應用在多個行業中將實現的能力範圍已經變得明顯。同時,紐約大學的加里·馬庫斯和其他人也表達了謹慎的聲音。

在Finetune,我們非常高興能在第三年繼續展示更多功能,使Generate高效,更可靠,並且在整個學習和評估領域中變得更有幫助。

更新於2025年4月29日