Modelos de Linguagem de Grande Escala e Desenvolvimento de Avaliações

Published on janeiro 20,2023

Shutterstock 2520071063

Por Charles Foster e Jesse Hamer

Introdução

Desde 2021, na Finetune, vimos o potencial dos Modelos de Linguagem de Grande Escala (LLMs) para transformar a forma como os profissionais da educação e avaliação trabalham. O ritmo dramático de progresso nesse espaço significou que conceitos podem passar de um brinquedo de pesquisa em uma semana para um produto viral na semana seguinte.

Não foi surpresa ver a empolgação em relação ao ChatGPT: em uma demonstração, todos entenderam que estamos à beira de algo grandioso. Dada a empolgação e incerteza atuais, pode-se questionar: como o Finetune Generate se encaixa nesse cenário? Se eu pudesse apenas pedir a um chatbot genérico que escrevesse para mim, por que eu precisaria de mais alguma coisa?

Gostamos de pensar nos Modelos de Linguagem de Grande Escala como modelos fundamentais: sistemas de IA cujo treinamento extenso e diversificado permite que atuem como a base para uma ampla gama de casos de uso. Algumas organizações, incluindo Anthropic, EleutherAI e OpenAI (o desenvolvedor do ChatGPT), treinam esses gigantescos modelos e os disponibilizam para outros usarem. Mas os próprios modelos são apenas a camada base: eles têm muito maior potencial quando integrados em um sistema maior, adaptado para uma aplicação específica. Assim como outras tecnologias de uso geral, como a Web, pode levar uma geração inteira de pesquisadores e empreendedores construindo sistemas sobre isso para que seu potencial se realize. Em uma entrevista com Ezra Klein, o CEO da OpenAI, Sam Altman, expressou um sentimento semelhante:

O que eu acho que não somos os melhores do mundo, nem queremos realmente desviar nossa atenção [de], são todos os maravilhosos produtos que serão construídos sobre [modelos de linguagem de grande escala]. E assim pensamos sobre nosso papel como descobrir como construir os sistemas de IA mais capazes do mundo e, em seguida, torná-los disponíveis para qualquer um que siga nossas regras para construir todos esses sistemas sobre eles.

Altman, 2023

Ao combinar LLMs com tecnologias mais tradicionais, como bases de conhecimento e interfaces com humanos no loop, podemos criar pilhas de tecnologia maduras, ou aplicações generativas, que nos permitem liberar as capacidades dos LLMs para criar ferramentas inteligentes em todos os tipos de áreas de aplicação. Generate e ChatGPT são dois exemplos iniciais disso.

Tendo esse quadro em mente, vamos comparar o ChatGPT e o Finetune Generate como aplicações generativas, ambos construídos sobre o GPT-3, do ponto de vista do desenvolvimento de itens.

Objetivos de Design

Tanto o ChatGPT quanto o Finetune Generate têm a intenção de fornecer uma interface mais intuitiva para os usuários interagirem com modelos generativos como o GPT-3. Além disso, as duas aplicações são bastante diferentes. A OpenAI tem a missão de construir sistemas de IA seguros e de uso geral para todos, e criou o ChatGPT para dar ao público uma amostra do que os modelos de linguagem são capazes de fazer com a linguagem natural, e para servir como um ambiente de testes para que construtores experimentem novas ideias.

Na Finetune, embora nos envolvamos com a comunidade de pesquisa mais ampla em torno das inovações dos modelos de linguagem (veja nossa colaboração com a OpenAI em melhorias na busca semântica), nosso objetivo com o Generate não era principalmente construir novos sistemas de uso geral, mas sim criar a melhor ferramenta possível para a escrita assistida por IA. É por isso que o Generate foi construído especificamente com os escritores de itens em mente, em torno de suas melhores práticas, linguagem e fluxos de trabalho. Todas as nossas restrições de design foram baseadas em interações com uma ampla variedade de primeiros adotantes. Cada modelo Generate que construímos é projetado para refletir a estrutura única de cada avaliação e fornece ao usuário os controles específicos necessários para sua tarefa. Além disso, equipes inteiras de escritores de itens podem colaborar no desenvolvimento de itens usando o Generate, com funcionalidade integrada para permitir a gestão de permissões e exportação estruturada para formatos como QTI.

Especificidade

Os modelos de linguagem de grande escala passam por uma fase inicial de treinamento chamada pré-treinamento, onde em uma longa sessão eles aprendem a partir de milhões de páginas da web, livros e outras fontes. Devido ao alto custo computacional de aprender a partir dessas entradas, seu conhecimento é tipicamente fixo após esse ponto. Como é uma fina camada de diálogo sobre o GPT-3, o ChatGPT também possui uma base de conhecimento fixa que não pode ser alterada. Se, por exemplo, um técnico quisesse ajuda sobre algum sistema proprietário, tal modelo provavelmente não seria útil para ele, porque o modelo não tem como aprender novos assuntos.

Os parceiros da Finetune vão desde a educação K-12 até o ensino superior, passando por licenciamento e certificação, e abrangem uma ampla variedade de domínios.

Assim, é fundamental para nós que os modelos que construímos para eles aprendam com seu conteúdo único — mesmo que esse conteúdo seja altamente especializado ou novo — e devem ser atualizáveis com novos materiais à medida que se tornam disponíveis.

Para tornar isso possível, nossa equipe de P&D de IA refinou nossos próprios métodos para incorporar eficientemente novos conhecimentos em modelos de linguagem e direcioná-los às diretrizes específicas de uma avaliação. Além disso, o Generate aprende dinamicamente ao longo do tempo para melhor direcionar itens ao conteúdo e estilo específicos das tarefas de cada cliente. Ao longo deste ano, planejamos lançar várias novas funcionalidades que continuarão a melhorar a controlabilidade e adaptabilidade de nossos modelos, desde o direcionamento de frases-chave até o controle detalhado sobre a complexidade cognitiva e além.

Segurança

Como uma demonstração experimental, o ChatGPT é feito para elicitar feedback sobre como as pessoas interagem com modelos de linguagem, para que a OpenAI possa melhorar a tecnologia fundamental que sustenta suas APIs. Por causa disso, quando os usuários conversam com o ChatGPT, essas interações são armazenadas e podem entrar em futuros conjuntos de dados de treinamento, para ajudar a treinar a próxima geração de modelos. Isso significa que se você desenvolver um item de avaliação com o ChatGPT, modelos futuros podem saber sobre isso ou tê-lo memorizado, potencialmente expondo seus itens e estilo de item de maneiras que você não pretendia, arriscando sua segurança.

A segurança é uma preocupação chave dentro do desenvolvimento de itens.

O Generate mantém os itens seguros, isolados, com cada cliente acessando apenas seus modelos.

Mesmo dentro de um único cliente, os usuários podem ser restritos a acessar apenas itens gerados específicos. Com o Generate, os clientes são sempre os proprietários de quaisquer itens que produzam, não importa se estão apenas experimentando um modelo inicial ou adotaram a ferramenta em grande escala.

Confiança e Suporte

Grande parte do que torna difícil usar produtivamente um LLM é que ele é fundamentalmente aleatório: pergunte a ele a mesma pergunta duas vezes e ele lhe dará duas respostas diferentes. Isso vai contra o que normalmente esperamos de nossas ferramentas: contamos com elas para serem confiáveis. Isso leva a um dos problemas mais persistentes com o ChatGPT e com outras ferramentas de LLM, a saber, que é difícil confiar em suas saídas quando você não sabe por que aquelas saídas foram escolhidas. Foi com base em fatos que o modelo recorda, ou em falsidades que o modelo inventou, ou até mesmo plagiadas de alguma fonte invisível?

Os padrões de confiança dentro da educação e avaliação são altos, muito mais altos do que para chatbots casuais. Os clientes querem saber que os itens que produzem através do Generate são verdadeiramente novos, baseados em seus próprios materiais e válidos.

Nossas equipes de Medição e P&D de IA trabalham com cada cliente para criar modelos adaptados às suas necessidades e para incorporar seu feedback nas melhorias contínuas do modelo.

Também realizamos verificações manuais e automatizadas para verificar se as sugestões que o Generate faz correspondem às especificações do cliente. Em breve, lançaremos um novo recurso que permitirá que os usuários façam facilmente a verificação cruzada de itens gerados com materiais de referência, para que possam ter a certeza imediata de que os itens que produzem estão fundamentados em fatos.

Conclusão

Este é um momento empolgante em que centenas de aplicações generativas serão desenvolvidas, todas buscando diferentes casos de uso potenciais para LLMs. Ao explorá-las como alguém que se preocupa profundamente com a qualidade da avaliação em educação, certificação e licenciamento, recomendamos que você sempre mantenha as seguintes perguntas em mente:

  • Para quem esta aplicação foi projetada?
  • O modelo que esta aplicação utiliza é treinado especificamente para o que minha organização precisa, incluindo nossas necessidades de segurança?
  • Como os dados que forneço serão utilizados?
  • Quero investir tempo e dinheiro para tornar um modelo genérico utilizável (por exemplo, a interface de usuário apropriada) e confiável por nossos Especialistas em Assunto (SMEs) para ser integrado ao nosso fluxo de trabalho e caso de uso de alta relevância?

Ainda estamos nos primeiros dias dessa tecnologia profundamente impressionante, mas já está se tornando aparente a extensão das capacidades que aplicações generativas permitirão em múltiplas indústrias. Assim também são as vozes de cautela expressas por Gary Marcus da NYU e outros.

Na Finetune, estamos muito empolgados em continuar mostrando mais recursos em nosso terceiro ano que tornarão o Generate ainda mais performático, ainda mais confiável e ainda mais útil em todo o panorama de aprendizado e avaliação.

Atualizado em 29 de abril de 2025