Como criar segurança e flexibilidade

Alguns clientes preferem exames que não são formulários fixos, mas que podem ser gerados automática e aleatoriamente a partir de um banco de itens no momento em que o candidato se senta para testar. A Prometric tem a capacidade de desenvolver bancos de exames que suportam vários tipos de testes baseados em bancos.

Teste linear on-the-fly (LOFT).
LOFT é a montagem de formulários pré-equacionados no centro de testes imediatamente antes ou durante a administração do teste. LOFT (Figura 2) é usado para gerar formulários fixos comparáveis exclusivos para cada participante de teste. LOFT é possível quando todos os itens são pré-testados e colocados em uma escala comum. Para ser prático, o LOFT deve ser administrado usando testes baseados em computador (CBT).

A construção do formulário de teste terá um efeito direto na construção do pool de testes para testes LOFT. A maioria dos conjuntos de itens para LOFT contém no mínimo 10 vezes o número de itens de teste necessários para qualquer formulário. Os conjuntos de itens são montados usando especificações estatísticas e de conteúdo com tanta atenção aos detalhes como se um único teste estivesse sendo montado (Ariel, van der Linden e Veldkamp, 2006). Cada conjunto de itens é construído a partir de um tanque de itens que contém muitos itens experimentados com estatísticas de itens e especificações de conteúdo (Way, 1998), além de indicadores para a indicação e sobreposição de conteúdo. As cubas de itens são a base para a montagem de conjuntos de itens para arquiteturas de CBT que exigem muitos itens, como LOFT.

Linear-on-the-Fly (LOFT)
Figure 2. Linear-on-the-Fly (LOFT)

LOFT com Testlets.
O LOFT no nível de testlet usa testlets exclusivos pré-montados em vez de itens individuais para criar formulários individualizados no centro de testes. Cada testlet contém itens exclusivos que pertencem apenas a um testlet, mas são construídos para representar toda a especificação de teste (Figura 3) ou podem se concentrar em diferentes seções do modelo de teste (Figura 4). A maioria dos testlets contém de 15 a 25 itens, dependendo das especificações do teste. No primeiro caso, um conjunto escolhido aleatoriamente de testlets paralelos se combinam para criar a forma final. No último caso, um testlet é escolhido aleatoriamente para cada área de conteúdo e combinado para criar o formulário final.

Os testlets podem ser construídos usando modelos clássicos, Rasch ou teoria de resposta ao item. LOFT com testlets é apropriado quando os itens são pré-testados e quando (a) o plano de teste é simples o suficiente para ser amostrado com um único testlet e / ou (b) o pool é grande o suficiente para criar vários testlets paralelos. LOFT com testlets deve ser administrado usando CBT.

O requisito de volume do item para LOFT com testlets, em que esses testlets são equivalentes em conteúdo e características estatísticas a todos os outros testlet no conjunto, é de cerca de cinco formulários de teste completos. Obviamente, mais itens se traduzem em combinações mais possíveis de formulários de teste exclusivos, com o mesmo testlet aparecendo possivelmente em muitos formulários de teste diferentes, mas únicos. Para LOFT com testlets montados em diferentes seções do blueprint de teste, os requisitos do item aumentam para cerca de dez formulários de teste completos devido às diferenças no número de perguntas necessárias em cada seção do blueprint.

As cubas de itens são grandes coleções de perguntas experimentadas (Way, 1998) que são usadas para construir os conjuntos de itens da LOFT que são subsequentemente liberados no campo para administração. Frequentemente, as piscinas são rotacionadas para dentro e para fora das diferentes janelas de administração para ajudar no controle da exposição e como uma medida destinada a manter a segurança dos testes e a integridade das pontuações (Ariel, Veldkamp e van der Linden, 2004). No entanto, se houver um esforço conjunto de alguns participantes para violar a segurança do conteúdo do teste, essas medidas de rotação não serão invulneráveis.

Figura 3. LOFT com testlets em todo o modelo

Figura 4. LOFT com testlets por seções

Teste Adaptativo Computadorizado (CAT-FL, CAT-VL)
Um teste adaptativo computadorizado administra itens que estão próximos do nível de habilidade do indivíduo que faz o teste (veja a Figura 5). Isso cria uma medição mais eficiente do que é possível com formas não adaptativas, mas cria a percepção entre os participantes de que os testes CAT são mais difíceis em comparação aos testes construídos como formas fixas. Essa percepção se deve à realidade de que os itens selecionados para qualquer um dos examinados são voltados para a proficiência desse indivíduo, conforme determinado pelos itens anteriores administrados na sessão de teste. Essa eficiência de medição pode ser aproveitada para criar um teste de comprimento fixo (CAT-FL) que produz pontuações mais precisas do que uma forma não adaptativa ou um teste de comprimento variável (CAT-VL) mais curto que uma forma não adaptativa de precisão comparável. O CAT é mais apropriado quando é necessária uma medição precisa ao longo de toda a escala de habilidades. A pontuação correta ou somada do número não funcionará com testes adaptativos: métodos de pontuação Rasch ou IRT devem ser usados. Eles levam em consideração os parâmetros invariantes da teoria da resposta ao item Rasch ou item de cada item que é respondido correta ou incorretamente. O CAT deve ser administrado usando CBT.

Figura 5. Teste adaptativo computadorizado

Teste de domínio computadorizado (CMT)
Um problema para as placas de credenciamento que empregam métodos de administração lineares ou CAT é que algumas decisões de aprovação com falha são tomadas incorretamente, sem método para determinar ou limitar esse erro de decisão. Os erros de classificação, refletindo essas decisões incorretas de aprovação / reprovação, envolvem dois tipos de erros: (A) falsos positivos, que envolvem indivíduos que devem falhar e (B) falsos negativos, que envolvem indivíduos que devem passar.

Essas decisões incorretas ocorrem porque os testes quase nunca são medidas perfeitas dos conhecimentos e habilidades de interesse. As perguntas de teste ou as situações de problemas são apenas uma amostra de todos aqueles relevantes para o trabalho de interesse que poderiam ter sido solicitados, e aqueles que foram solicitados podem fornecer uma imagem enganosa das capacidades de alguns candidatos. Soluções típicas que não são baseadas em computador para evitar decisões incorretas sobre o status de reprovação de um candidato envolvem aumentar ou diminuir a pontuação de corte para um teste de duração fixa. Isso resulta no aumento ou diminuição do tamanho do erro de classificação mais importante na direção desejada, mas o tamanho do outro erro de classificação aumenta ou diminui na direção oposta. O teste de domínio computadorizado foi projetado para tirar proveito do computador e resolver esse problema de decisão incorreta para os clientes, sem exigir os grandes recursos exigidos pelo CAT.

Em um teste de domínio computadorizado (CMT) , alguns candidatos recebem mais perguntas do que outros. As perguntas em um exame CMT são subdivididas em grupos menores de comprimento fixo, com igual número de perguntas não sobrepostas, cobrindo todo o conteúdo definido nas especificações do teste. Essas são as mesmas especificações de teste que resultaram de uma análise de trabalho padrão. Chamamos esses pequenos grupos de perguntas de testlets. O tamanho do testlet usado em qualquer exame CMT está diretamente relacionado ao menor número de perguntas que podem ser feitas e ainda cobre proporcionalmente todo o plano de teste. (Descobrimos que de 15 a 25 perguntas por testlet se encaixam na maioria das tabelas de especificações de testes.) Em um exame CMT, cada testlet seria construído para ser idêntico (igual) a todos os outros testlets em dificuldade média e distribuição de pontuações e cada um seria projetado para cobrir todo o plano de conteúdo de teste da mesma maneira.

Em um exame CMT, todos os candidatos recebem primeiro um teste básico. (Podemos pensar no teste de base como o primeiro estágio de um processo de teste de vários estágios.) O teste de base é composto de vários testlets selecionados aleatoriamente de um pool composto por testlets iguais sem sobreposição. Os candidatos que executam em níveis extremos (alto ou baixo) neste teste básico são aprovados ou reprovados imediatamente após a conclusão. Os candidatos com desempenho intermediário - para os quais é mais provável um erro de decisão incorreta - recebem perguntas adicionais na forma de testlets únicos, permitindo a eles oportunidade adicional de demonstrar que cumpriram o padrão estabelecido. Esse processo de administração de testlets adicionais àqueles candidatos para os quais é mais provável um erro de decisão incorreto continua até que o teste completo seja alcançado; nesse ponto, uma decisão final de aprovação / reprovação é tomada idêntica àquela feita em um exame linear completo . Essa pontuação final máxima é determinada da mesma maneira que uma pontuação linear de teste é determinada. É realizado um estudo de pontuação de corte e o cliente decide a pontuação de corte.

Um exemplo é fornecido na figura a seguir, de como um examinado pode prosseguir no CMT. Observe que há sete estágios de teste e que, após o primeiro estágio, o candidato ainda está na região "continue" e recebe um testlet adicional. Esse processo de teste continua neste exemplo até o terceiro estágio, quando o examinado cai na região de falha e o teste é interrompido.

Uma vantagem do CMT sobre o teste linear é que ele permite ao cliente especificar sua tolerância relativa para cometer um erro de decisão. O formato das regiões de passagem, continuação e falha mostradas na Figura 1 mudará com base nessas decisões do cliente. Além de definir a pontuação de corte, o cliente decide qual erro de decisão é mais grave ou se é igualmente grave. Nossa pesquisa preliminar mostra que podemos classificar a maioria dos candidatos usando o modelo CMT dentro das tolerâncias (perdas) expressas pelo cliente.

Uma segunda vantagem do CMT sobre o CAT é que são necessárias menos perguntas para criar um pool de testlet do que o necessário para criar um pool de itens CAT (calibrado). Descobrimos que de três a cinco formulários de teste lineares com alguns itens comuns (sobrepostos) são tudo o que é necessário para formar um pool de testlet adequado. Além disso, grandes amostras de candidatos não são necessárias. Desenvolvemos métodos CMT que não usam a teoria da resposta ao item (TRI), mas ainda aproveitam o computador. (Alguns de nossos modelos de CMT usam IRT, enquanto outros não. Esses modelos de CMT que não usam IRT são muito fáceis de explicar aos candidatos, uma vez que usam o número de perguntas corretas no cálculo das pontuações.) De fato, algumas das nossos modelos de CMT não exigem que os itens sejam condicionalmente independentes um do outro, nem que o conteúdo do teste seja unidimensional. Esses são requisitos típicos dos conjuntos de itens CAT que usam o IRT.

Um exemplo de como um candidato pode prosseguir com um exame CMT

(ver Kim & Cohen, 1998)
Prometric gera um relatório de montagem de formulários que captura; (a) estatísticas descritivas do formulário de teste na escala de pontuação bruta e de relatório; (b) estatísticas de dificuldade do item, discriminação e tempo de resposta por item; (c) erros padrão condicionais de medição para cada pontuação possível (se apropriado); (d) informações de teste e funções características do teste, se apropriado; (e) conformidade de cada formulário com o modelo de teste, (f) histogramas de tempo de teste e (g) distribuições totais de pontuação, se apropriado.

Voltar à página de referência de entrega de teste avançado