대형 언어 모델과 평가 개발

검색

문의하기

찰스 포스터와 제시 해머의 글

소개

2021년 이래로 Finetune에서는 교육 및 평가 분야의 전문가들이 일하는 방식을 변화시킬 수 있는 대규모 언어 모델(LLM)의 잠재력을 보아왔습니다. 이 분야에서의 급격한 발전 속도는 개념이 한 주에는 연구 장난감으로, 다음 주에는 바이럴 제품으로 발전할 수 있음을 의미합니다.

따라서 ChatGPT에 대한 반응이 얼마나 흥미로웠는지를 보는 것은 놀라운 일이 아니었습니다. 한 데모에서 모든 사람들은 우리가 뭔가 위대한 것의 문턱에 서 있다는 것을 이해했습니다. 현재의 흥분과 불확실성을 감안할 때, 특허를 받은 Finetune Generate가 이 환경에 어떻게 맞아 들어가는지 궁금해할 수 있습니다. 만약 내가 일반적인 챗봇에게 내 글쓰기를 부탁할 수 있다면, 왜 다른 것이 필요할까요?

우리는 대규모 언어 모델을 기초 모델로 생각하고 싶습니다: 광범위하고 다양한 훈련을 통해 다양한 사용 사례의 기반 역할을 수행할 수 있는 AI 시스템입니다. Anthropic, EleutherAI, OpenAI(챗GPT 개발사)와 같은 몇몇 조직들이 이러한 거대한 모델을 훈련시키고 다른 사람들이 사용할 수 있도록 제공합니다. 그러나 모델 자체는 단지 기본 레이어일 뿐입니다: 특정 응용 프로그램에 맞춰 더 큰 시스템에 엮여질 때 훨씬 더 큰 잠재력을 갖습니다. 웹과 같은 다른 범용 기술들과 마찬가지로, 그 잠재력을 실현하기 위해서는 이를 기반으로 시스템을 구축하는 연구자와 기업가의 전체 세대가 필요할 수 있습니다. OpenAI CEO 샘 올트먼은 에즈라 클라인과의 인터뷰에서 비슷한 감정을 표현했습니다:

우리가 세계에서 가장 잘 하는 것이 아니고, 정말로 주의를 돌리고 싶지 않은 것은 [대규모 언어 모델] 위에 구축될 모든 멋진 제품들입니다. 그래서 우리는 세계에서 가장 능력 있는 AI 시스템을 구축하는 방법을 찾아서, 우리 규칙을 따르는 모든 사람들이 이러한 시스템을 구축할 수 있도록 제공하는 역할에 대해 생각하고 있습니다.
올트먼, 2023

LLM을 지식 기반 및 인간-루프 인터페이스와 같은 보다 전통적인 기술과 결합함으로써, 우리는 LLM의 능력을 활용하여 모든 종류의 응용 분야에서 스마트 도구를 생성할 수 있는 성숙한 기술 스택 또는 생성 응용 프로그램을 만들 수 있습니다. Generate와 ChatGPT는 이러한 초기 사례 중 두 가지입니다.

이 프레임워크를 염두에 두고, ChatGPT와 Finetune Generate를 아이템 개발 관점에서 모두 GPT-3에 기반한 생성 응용 프로그램으로 비교해 보겠습니다.

디자인 목표

ChatGPT와 Finetune Generate 모두 사용자가 GPT-3와 같은 생성 모델과 상호 작용할 수 있도록 보다 직관적인 인터페이스를 제공하는 것을 목표로 하고 있습니다. 그 외에도 두 응용 프로그램은 상당히 다릅니다. OpenAI는 모두를 위한 안전하고 범용적인 AI 시스템을 구축하는 사명을 가지고 있으며, ChatGPT는 일반 대중에게 자연어로 언어 모델이 수행할 수 있는 것에 대한 맛을 제공하고, 빌더들이 새로운 아이디어를 시험할 수 있는 샌드박스 역할을 하도록 만들어졌습니다.

Finetune에서는 언어 모델 혁신에 대한 더 넓은 연구 커뮤니티와 협력하고 있지만(자세한 내용은 OpenAI와의 협업 참조), Generate의 목표는 주로 새로운 범용 시스템을 구축하는 것이 아니라 AI 지원 아이템 작성을 위한 최고의 도구를 만드는 것이었습니다. 그래서 Generate는 아이템 작가를 염두에 두고, 그들의 모범 사례, 언어 및 워크플로우에 맞춰 특별히 구축되었습니다. 우리의 모든 디자인 제약은 다양한 초기 사용자의 참여를 기반으로 하였습니다. 우리가 구축하는 각 Generate 모델은 각 평가의 고유한 구조를 반영하도록 설계되었으며, 사용자에게 필요한 특정 제어 기능을 제공합니다. 또한, 아이템 작가의 전체 팀이 Generate를 사용하여 아이템을 개발할 수 있으며, 권한 관리 및 QTI와 같은 형식으로의 구조화된 내보내기를 허용하는 내장 기능이 있습니다.

특정성

대규모 언어 모델은 사전 훈련이라는 초기 훈련 단계를 거치며, 이 긴 세션에서 웹, 책 및 기타 출처의 수백만 페이지에서 학습합니다. 이러한 입력에서 학습하는 계산이 얼마나 비싼지 때문에, 그들의 지식은 일반적으로 그 이후에 고정됩니다. ChatGPT는 GPT-3 위에 얇은 대화 래퍼를 두고 있기 때문에, 유사하게 수정할 수 없는 고정된 지식 기반을 가지고 있습니다. 예를 들어, 기술자가 특정 독점 시스템에 대한 도움을 원한다면, 이러한 모델은 그들에게 도움이 되지 않을 가능성이 큽니다. 왜냐하면 모델은 새로운 주제를 학습할 방법이 없기 때문입니다.

Finetune의 파트너는 K-12에서 고등 교육, 그리고 면허 및 인증에 이르기까지 다양한 분야에 걸쳐 있습니다.

따라서 우리가 그들을 위해 구축하는 모델은 그들의 고유한 콘텐츠에서 학습해야 하며—그 콘텐츠가 매우 전문적이거나 새로운 경우에도—새로운 자료가 제공될 때 업데이트 가능해야 한다는 것이 중요합니다.

이를 가능하게 하기 위해, 우리의 AI R&D 팀은 새로운 지식을 언어 모델에 효율적으로 통합하고 평가의 특정 지침에 맞추기 위한 자체 방법을 정교화했습니다. 더욱이, Generate는 시간이 지남에 따라 역동적으로 학습하여 각 고객의 작업의 특정 콘텐츠 및 스타일에 더 잘 맞도록 아이템을 타겟팅합니다. 올해 동안 우리는 주요 구문 타겟팅에서 인지 복잡성에 대한 세밀한 제어에 이르기까지 모델의 제어 가능성과 적응성을 계속 향상시킬 여러 가지 기능을 출시할 계획입니다.

보안

실험적인 데모로서, ChatGPT는 사람들이 언어 모델과 상호 작용하는 방식을 피드백받기 위해 설계되었으며, 이를 통해 OpenAI는 API를 지원하는 기본 기술을 개선할 수 있습니다. 이로 인해 사용자가 ChatGPT와 대화할 때, 이러한 상호 작용은 저장되며 향후 훈련 데이터 세트에 포함될 수 있어 다음 세대 모델을 훈련하는 데 도움이 됩니다. 이는 ChatGPT로 평가 항목을 개발하면 향후 모델이 이를 알고 있거나 암기할 수 있어, 의도하지 않은 방식으로 귀하의 아이템과 아이템 스타일을 노출시킬 수 있는 위험이 있다는 것을 의미합니다.

보안은 아이템 개발에서 중요한 문제입니다.

Generate는 항목을 안전하게 유지하며, 각 고객은 자신의 모델에만 접근할 수 있습니다.

단일 고객 내에서도 사용자는 특정 생성된 항목에만 접근할 수 있도록 제한될 수 있습니다. Generate를 사용하면 고객은 모델을 처음 시험하는 경우든 대규모로 도구를 채택한 경우든 상관없이 자신이 생성하는 항목의 소유자가 됩니다.

신뢰와 지원

LLM을 생산적으로 사용하는 데 많은 어려움이 있는 이유 중 하나는 그것이 근본적으로 무작위적이라는 점입니다: 같은 질문을 두 번 하면 두 개의 다른 답변을 제공합니다. 이는 일반적으로 도구에서 기대하는 것과 반대입니다: 우리는 도구가 신뢰할 수 있기를 기대합니다. 이는 ChatGPT 및 기타 LLM 도구와 관련된 가장 지속적인 문제 중 하나로 이어지며, 즉 그러한 출력이 선택된 이유를 알지 못할 때 출력에 대한 신뢰가 어렵다는 것입니다. 그것이 모델이 기억하는 사실에 기반한 것인지, 모델이 만들어낸 허위 정보인지, 아니면 보이지 않는 출처에서 표절한 것인지 알 수 없습니다.

교육 및 평가 내의 신뢰 기준은 높으며, 일반적인 챗봇보다 훨씬 높습니다. 고객들은 Generate를 통해 생성된 항목이 진정으로 새롭고, 그들의 자료에 기반하며, 유효하다는 것을 알고 싶어합니다.

우리의 측정 및 AI R&D 팀은 각 고객과 협력하여 그들의 요구에 맞춘 모델을 생성하고, 지속적인 모델 개선에 그들의 피드백을 통합합니다.

우리는 또한 Generate가 제안하는 내용이 고객의 사양과 일치하는지 확인하기 위해 수동 및 자동 검사를 수행합니다. 곧 사용자가 생성된 항목을 참조 자료와 쉽게 교차 참조할 수 있는 새로운 기능을 출시할 예정이므로, 그들이 생산하는 항목이 사실에 기반하고 있다는 즉각적인 확신을 가질 수 있을 것입니다.

결론

현재는 수백 개의 생성 응용 프로그램이 구축될 흥미로운 시기로, 모두 LLM의 다양한 잠재적 사용 사례를 추구하고 있습니다. 교육, 인증 및 면허의 평가 품질에 깊은 관심을 가진 사람으로서 이들을 탐색하면서 항상 다음 질문을 염두에 두시기 바랍니다:

이 응용 프로그램은 누구를 위해 설계되었나요?
이 응용 프로그램이 사용하는 모델은 우리 조직의 요구, 특히 보안 요구에 맞게 특별히 훈련되었나요?
내가 제공하는 데이터는 어떻게 사용될 것인가요?
우리의 주제 전문가(SME)가 통합할 수 있도록 신뢰할 수 있는(raw) 범용 모델을 사용 가능하게 만들기 위해 시간과 돈을 투자할 것인가요?

우리는 이 매우 인상적인 기술의 초기 단계에 있지만, 이미 생성 응용 프로그램이 여러 산업에서 가능하게 할 수 있는 능력의 범위가 분명해지고 있습니다. 뉴욕 대학교의 게리 마커스와 다른 사람들에 의해 표현된 경고의 목소리도 마찬가지입니다.

Finetune에서는 Generate를 더욱 성과가 뛰어나고, 더욱 신뢰할 수 있으며, 더욱 전체 학습 및 평가 환경에서 유용한 기능을 계속 선보일 수 있게 되어 매우 기쁩니다.

2025년 4월 29일 업데이트

시험 찾기

시험 전에

숙소

시험 날에

시험 후

자주 묻는 질문

테스트 센터 폐쇄

평가 개발

글로벌 배송

후보 경험

프로그램 성장

보안

인공지능을 세밀하게 조정하다

클라이언트 리소스

AI 시험 개발

AI 콘텐츠 카탈로그화

VR 기술 개발

센터 내 배달

원격 배달

경험 준비

콘텐츠 라이브러리

언어 능력

AI 평가 개발

인공지능 콘텐츠 정렬

평가 플랫폼

데이터 인사이트

PL 포트폴리오

교육 솔루션 지원

기술

글로벌 헬스케어

재무

정부

협회들

교육

소비자

성공 사례

가이드 및 백서

웨비나

이벤트

블로그

연구

리더십

글로벌 사무소

프로메트릭 시험

프레스 룸

경력

탄소 감축 계획

문의하기

대형 언어 모델과 평가 개발

소개

디자인 목표

특정성

보안

신뢰와 지원

결론