由查尔斯·福斯特和杰西·哈默撰写
介绍
自2021年以来,在Finetune,我们看到了大型语言模型(LLMs)在改变教育和评估专业人士工作方式方面的潜力。这一领域的进步速度之快,使得概念能够在一周内从研究玩具变为下周的热门产品。
因此,看到人们对ChatGPT的反应如此兴奋并不奇怪:在一次演示中,每个人都明白我们正站在伟大事物的门槛上。考虑到目前的兴奋和不确定性,人们可能会想:专利的Finetune Generate在这个环境中如何适应?如果我可以仅仅要求一个通用的聊天机器人为我写作,那我还会需要其他任何东西吗?
我们喜欢将大型语言模型视为基础模型:AI系统通过广泛而多样的训练,使它们能够作为广泛应用案例的基础。一些组织,包括Anthropic、EleutherAI和OpenAI(ChatGPT的开发者),训练这些巨型模型并使其可供他人使用。但这些模型本身只是基础层:当它们被编织进一个更大的系统中,针对特定应用进行定制时,它们具有更大的潜力。就像其他通用技术(如互联网)一样,可能需要整整一代研究人员和企业家在其基础上构建系统,才能实现其潜力。在与Ezra Klein的采访中,OpenAI的首席执行官山姆·阿尔特曼表达了类似的观点:
我认为我们并不是世界上最擅长的领域,也不想真正转移我们的注意力[从]所有将建立在[大型语言模型]之上的精彩产品。因此,我们考虑我们的角色是弄清楚如何构建世界上最强大的AI系统,然后将它们提供给任何遵循我们规则的人,以在其上构建所有这些系统。
阿尔特曼,2023
通过将LLMs与更传统的技术(如知识库和人机交互界面)结合,我们可以创建成熟的技术栈或生成应用,让我们释放LLMs的能力,在各种应用领域创造智能工具。Generate和ChatGPT就是这些早期示例中的两个。
考虑到这个框架,让我们从项目开发的角度比较ChatGPT和Finetune Generate这两个基于GPT-3构建的生成应用。
设计目标
ChatGPT和Finetune Generate的目的是为用户提供一个更直观的界面,以便与像GPT-3这样的生成模型进行互动。除此之外,这两个应用在许多方面是不同的。OpenAI的使命是构建安全的通用AI系统,让所有人使用,并构建ChatGPT来让公众体验语言模型在自然语言处理中的能力,并作为构建者测试新想法的沙盒。
在Finetune,尽管我们确实参与了围绕语言模型创新的更广泛研究社区(参见我们与OpenAI在语义搜索改进方面的合作),但我们创建Generate的目标并不是主要为了构建新的通用系统,而是为了构建最佳的AI辅助项目写作工具。这就是为什么Generate是专门围绕项目作者的最佳实践、语言和工作流程构建的。我们所有的设计约束都是基于与各种早期采用者的互动。我们构建的每个Generate模型都旨在反映每个评估的独特结构,并为用户提供完成其任务所需的具体控制。此外,整个项目作者团队可以使用Generate协作开发项目,内置功能允许权限管理和将内容结构化导出为QTI等格式。
特异性
大型语言模型经历一个称为预训练的初始训练阶段,在这个阶段,它们在一次长时间的会话中从数百万页的网页、书籍和其他来源学习。由于从这些输入中学习的计算成本非常高,因此它们的知识通常会在此之后固定不变。由于ChatGPT是在GPT-3之上的一个薄薄对话包装,因此它也有一个固定的知识库,无法进行修改。如果说某个技术人员希望获得关于某个专有系统的帮助,这样的模型可能对他们并没有帮助,因为该模型无法学习新的主题。
Finetune的合作伙伴涵盖从K-12到高等教育,再到执照和认证,涉及广泛的领域。
因此,对于我们来说,构建的模型必须从其独特内容中学习——即使该内容高度专业化或新颖——并且必须能够随着新材料的出现而更新。
为了使这一点成为可能,我们的AI研发团队已经改进了我们自己的方法,以高效地将新知识融入语言模型,并使其针对特定评估的指导方针。此外,Generate随着时间的推移动态学习,以更好地针对每个客户任务的特定内容和风格。在今年,我们计划推出更多功能,以继续改善我们模型的可控性和适应性,从关键词目标到对认知复杂性的细粒度控制等。
安全性
作为一个实验演示,ChatGPT旨在引发人们对如何与语言模型互动的反馈,以便OpenAI可以改进其API背后的基本技术。正因为如此,当用户与ChatGPT交谈时,这些互动会被存储,并可能进入未来的训练数据集,以帮助训练下一代模型。这意味着如果您使用ChatGPT开发评估项目,未来的模型可能会知道或记住这些内容,可能会以您未曾预料的方式暴露您的项目和项目风格,冒着安全风险。
安全性是项目开发中的一个关键问题。
Generate保持项目的安全,彼此隔离,每个客户仅访问自己的模型。
即使在单个客户内部,用户也可以被限制为仅访问特定生成的项目。使用Generate,客户始终是他们所生产的任何项目的所有者,无论他们是仅尝试初始模型还是在大规模采用该工具。
信任与支持
高效使用LLM的困难在于它是根本上随机的:如果你问它同样的问题两次,它会给你两个不同的答案。这与我们通常对工具的期望背道而驰:我们希望它们是可靠的。这导致了ChatGPT和其他LLM工具中最持久的问题之一,即当您不知道为什么这些输出被选择时,很难信任它们的输出。是基于模型回忆的事实,还是模型编造的虚假信息,甚至是从某些未见来源剽窃的内容?
教育和评估中的信任标准很高,远高于休闲聊天机器人。客户希望知道通过Generate生产的项目是真正新颖的,基于他们自己的材料,并且是有效的。
我们的测量和AI研发团队与每个客户合作,创建量身定制的模型,并将他们的反馈纳入持续的模型改进中。
我们还进行手动和自动检查,以验证Generate所做的建议是否符合客户的规格。我们很快将推出一项新功能,允许用户轻松地将生成的项目与参考材料进行交叉参考,以便他们能够立即确认他们生产的项目是基于事实的。
结论
这是一个令人兴奋的时刻,数百个生成应用将被构建,所有这些应用都在追求LLMs的不同潜在用例。当您作为一个深切关心教育、认证和许可中评估质量的人来探索这些应用时,我们建议您始终牢记以下问题:
- 这个应用是为谁设计的?
- 这个应用使用的模型是否专门针对我的组织的需求进行训练,包括我们的安全需求?
- 我提供的数据将如何使用?
- 我是否想投资时间和金钱使一个原始通用模型可用(例如,适当的用户界面),并得到我们主题专家(SMEs)的信任,以便将其集成到我们的工作流程和高风险用例中?
我们仍然处于这项令人深刻印象的技术的早期阶段,但生成应用将跨多个行业所能启用的能力的广度已经变得显而易见。纽约大学的加里·马库斯和其他人表达的谨慎声音也同样显而易见。
在Finetune,我们非常兴奋能够在我们的第三年继续展示更多功能,使Generate更高效,更可靠,并在整个学习和评估领域中提供更多帮助。
更新于2025年4月29日