大型语言模型与评估开发

搜索

联系我们

由查尔斯·福斯特和杰西·哈默撰写

介绍

自2021年以来，在Finetune，我们看到了大型语言模型（LLMs）在改变教育和评估专业人士工作方式方面的潜力。这一领域的进步速度之快，使得概念能够在一周内从研究玩具变为下周的热门产品。

因此，看到人们对ChatGPT的反应如此兴奋并不奇怪：在一次演示中，每个人都明白我们正站在伟大事物的门槛上。考虑到目前的兴奋和不确定性，人们可能会想：专利的Finetune Generate在这个环境中如何适应？如果我可以仅仅要求一个通用的聊天机器人为我写作，那我还会需要其他任何东西吗？

我们喜欢将大型语言模型视为基础模型：AI系统通过广泛而多样的训练，使它们能够作为广泛应用案例的基础。一些组织，包括Anthropic、EleutherAI和OpenAI（ChatGPT的开发者），训练这些巨型模型并使其可供他人使用。但这些模型本身只是基础层：当它们被编织进一个更大的系统中，针对特定应用进行定制时，它们具有更大的潜力。就像其他通用技术（如互联网）一样，可能需要整整一代研究人员和企业家在其基础上构建系统，才能实现其潜力。在与Ezra Klein的采访中，OpenAI的首席执行官山姆·阿尔特曼表达了类似的观点：

我认为我们并不是世界上最擅长的领域，也不想真正转移我们的注意力[从]所有将建立在[大型语言模型]之上的精彩产品。因此，我们考虑我们的角色是弄清楚如何构建世界上最强大的AI系统，然后将它们提供给任何遵循我们规则的人，以在其上构建所有这些系统。
阿尔特曼，2023

通过将LLMs与更传统的技术（如知识库和人机交互界面）结合，我们可以创建成熟的技术栈或生成应用，让我们释放LLMs的能力，在各种应用领域创造智能工具。Generate和ChatGPT就是这些早期示例中的两个。

考虑到这个框架，让我们从项目开发的角度比较ChatGPT和Finetune Generate这两个基于GPT-3构建的生成应用。

设计目标

ChatGPT和Finetune Generate的目的是为用户提供一个更直观的界面，以便与像GPT-3这样的生成模型进行互动。除此之外，这两个应用在许多方面是不同的。OpenAI的使命是构建安全的通用AI系统，让所有人使用，并构建ChatGPT来让公众体验语言模型在自然语言处理中的能力，并作为构建者测试新想法的沙盒。

在Finetune，尽管我们确实参与了围绕语言模型创新的更广泛研究社区（参见我们与OpenAI在语义搜索改进方面的合作），但我们创建Generate的目标并不是主要为了构建新的通用系统，而是为了构建最佳的AI辅助项目写作工具。这就是为什么Generate是专门围绕项目作者的最佳实践、语言和工作流程构建的。我们所有的设计约束都是基于与各种早期采用者的互动。我们构建的每个Generate模型都旨在反映每个评估的独特结构，并为用户提供完成其任务所需的具体控制。此外，整个项目作者团队可以使用Generate协作开发项目，内置功能允许权限管理和将内容结构化导出为QTI等格式。

特异性

大型语言模型经历一个称为预训练的初始训练阶段，在这个阶段，它们在一次长时间的会话中从数百万页的网页、书籍和其他来源学习。由于从这些输入中学习的计算成本非常高，因此它们的知识通常会在此之后固定不变。由于ChatGPT是在GPT-3之上的一个薄薄对话包装，因此它也有一个固定的知识库，无法进行修改。如果说某个技术人员希望获得关于某个专有系统的帮助，这样的模型可能对他们并没有帮助，因为该模型无法学习新的主题。

Finetune的合作伙伴涵盖从K-12到高等教育，再到执照和认证，涉及广泛的领域。

因此，对于我们来说，构建的模型必须从其独特内容中学习——即使该内容高度专业化或新颖——并且必须能够随着新材料的出现而更新。

为了使这一点成为可能，我们的AI研发团队已经改进了我们自己的方法，以高效地将新知识融入语言模型，并使其针对特定评估的指导方针。此外，Generate随着时间的推移动态学习，以更好地针对每个客户任务的特定内容和风格。在今年，我们计划推出更多功能，以继续改善我们模型的可控性和适应性，从关键词目标到对认知复杂性的细粒度控制等。

安全性

作为一个实验演示，ChatGPT旨在引发人们对如何与语言模型互动的反馈，以便OpenAI可以改进其API背后的基本技术。正因为如此，当用户与ChatGPT交谈时，这些互动会被存储，并可能进入未来的训练数据集，以帮助训练下一代模型。这意味着如果您使用ChatGPT开发评估项目，未来的模型可能会知道或记住这些内容，可能会以您未曾预料的方式暴露您的项目和项目风格，冒着安全风险。

安全性是项目开发中的一个关键问题。

Generate保持项目的安全，彼此隔离，每个客户仅访问自己的模型。

即使在单个客户内部，用户也可以被限制为仅访问特定生成的项目。使用Generate，客户始终是他们所生产的任何项目的所有者，无论他们是仅尝试初始模型还是在大规模采用该工具。

信任与支持

高效使用LLM的困难在于它是根本上随机的：如果你问它同样的问题两次，它会给你两个不同的答案。这与我们通常对工具的期望背道而驰：我们希望它们是可靠的。这导致了ChatGPT和其他LLM工具中最持久的问题之一，即当您不知道为什么这些输出被选择时，很难信任它们的输出。是基于模型回忆的事实，还是模型编造的虚假信息，甚至是从某些未见来源剽窃的内容？

教育和评估中的信任标准很高，远高于休闲聊天机器人。客户希望知道通过Generate生产的项目是真正新颖的，基于他们自己的材料，并且是有效的。

我们的测量和AI研发团队与每个客户合作，创建量身定制的模型，并将他们的反馈纳入持续的模型改进中。

我们还进行手动和自动检查，以验证Generate所做的建议是否符合客户的规格。我们很快将推出一项新功能，允许用户轻松地将生成的项目与参考材料进行交叉参考，以便他们能够立即确认他们生产的项目是基于事实的。

结论

这是一个令人兴奋的时刻，数百个生成应用将被构建，所有这些应用都在追求LLMs的不同潜在用例。当您作为一个深切关心教育、认证和许可中评估质量的人来探索这些应用时，我们建议您始终牢记以下问题：

这个应用是为谁设计的？
这个应用使用的模型是否专门针对我的组织的需求进行训练，包括我们的安全需求？
我提供的数据将如何使用？
我是否想投资时间和金钱使一个原始通用模型可用（例如，适当的用户界面），并得到我们主题专家（SMEs）的信任，以便将其集成到我们的工作流程和高风险用例中？

我们仍然处于这项令人深刻印象的技术的早期阶段，但生成应用将跨多个行业所能启用的能力的广度已经变得显而易见。纽约大学的加里·马库斯和其他人表达的谨慎声音也同样显而易见。

在Finetune，我们非常兴奋能够在我们的第三年继续展示更多功能，使Generate更高效，更可靠，并在整个学习和评估领域中提供更多帮助。

更新于2025年4月29日

查找考试项目

考试前

考试特殊需求

考试日

考试后

常见问题解答

考试中心关闭

考试开发

全球交付

考生体验

项目拓展

安全标准

Finetune AI

客户端资源

AI辅助试题开发

AI辅助内容编目

VR技能发展

考场交付

远程交付

模拟考试

内容库

语言能力

AI辅助试题编制

AI内容对齐

评估平台

数据洞察

PL 组合

教育解决方案支持

技术

全球医疗

财务

政府

协会

教育

需求类

成功案例

指南和白皮书

线上讲座

线下活动

博客专栏

研究

管理团队

全球办公室

Prometric 考试

新闻发布

招聘

碳减排计划

联系我们

大型语言模型与评估开发

介绍

设计目标

特异性

安全性

信任与支持

结论