Desarrollo del banco de exámenes

Cómo construir en seguridad y flexibilidad

Algunos clientes prefieren los exámenes que no son formularios fijos, pero que pueden generarse de forma automática y aleatoria a partir de un banco de artículos en el momento en que el candidato se sienta a hacer el examen. Prometric tiene la capacidad de desarrollar bancos de exámenes que admiten varios tipos de pruebas bancarias.

Pruebas lineales sobre la marcha (LOFT).
LOFT es el ensamblaje de formularios preequivados en el centro de pruebas justo antes o durante la administración de la prueba. LOFT (Figura 2) se utiliza para generar formas fijas comparables únicas para cada examinado. LOFT es posible cuando todos los artículos se prueban previamente y se colocan en una escala común. Para ser práctico, LOFT debe administrarse mediante pruebas basadas en computadora (TCC).

La construcción del formulario de prueba tendrá un efecto directo en la construcción del grupo de prueba para pruebas LOFT. La mayoría de los grupos de elementos para LOFT contienen un mínimo de al menos 10 veces el número de elementos de prueba necesarios para cualquier formulario. Los grupos de artículos se ensamblan utilizando especificaciones estadísticas y de contenido con tanta atención al detalle como si se estuviera ensamblando una sola prueba (Ariel, van der Linden y Veldkamp, 2006). Cada grupo de elementos se construye a partir de un depósito de elementos que contiene muchos elementos probados con estadísticas de elementos y especificaciones de contenido (Way, 1998), así como indicadores para indicar y superponer contenido. Los depósitos de artículos son la base para ensamblar grupos de artículos para arquitecturas CBT que requieren muchos artículos, como LOFT.

LOFT con Testlets.
El LOFT a nivel de testlet utiliza testlets únicos premontados en lugar de elementos individuales para construir formularios individualizados en el centro de pruebas. Cada testlet contiene elementos únicos que pertenecen solo a un testlet, pero están construidos para representar la especificación de prueba completa (Figura 3) o pueden enfocarse en diferentes secciones del plan de prueba (Figura 4). La mayoría de los testlets contienen de 15 a 25 elementos cada uno, según las especificaciones del examen. En el primer caso, un conjunto de testlets paralelos elegidos al azar se combinan para crear la forma final. En el último caso, se elige aleatoriamente un testlet para cada área de contenido y se combina para crear el formulario final.

Los testículos pueden construirse usando modelos de teoría de respuesta clásica, Rasch o ítem. LOFT con testlets es apropiado cuando los elementos se prueban previamente y cuando (a) el modelo de prueba es lo suficientemente simple como para muestrearse con un solo testlet y / o (b) el grupo es lo suficientemente grande como para crear múltiples testlets paralelos. LOFT con testículos debe administrarse usando TCC.

El requisito de volumen de elementos para LOFT con testlets, donde esos testlets son equivalentes en contenido y características estadísticas a cualquier otro testlet en el grupo, es de aproximadamente cinco formularios de prueba de longitud completa. Por supuesto, más elementos se traducen en más combinaciones posibles de formularios de prueba únicos, y el mismo testlet aparece posiblemente en muchos formularios de prueba diferentes pero únicos. Para LOFT con testlets que se ensamblan dentro de diferentes secciones del plan de prueba, los requisitos del elemento aumentan a aproximadamente diez formularios de prueba completos debido a las diferencias en el número de preguntas requeridas en cada sección del plan.

Los depósitos de artículos son grandes colecciones de preguntas probadas (Way, 1998) que se utilizan para construir los grupos de artículos LOFT que posteriormente se lanzan al campo para su administración. Las piscinas a menudo se rotan dentro y fuera de diferentes ventanas de administración para ayudar con el control de la exposición y como una medida destinada a mantener la seguridad de los exámenes y la integridad de los puntajes (Ariel, Veldkamp y van der Linden, 2004). Sin embargo, si hay un esfuerzo concertado por parte de algunos examinados para violar la seguridad del contenido de la prueba, estas medidas de rotación no son invulnerables.

Figura 3. LOFT con Testlets en todo el plano

Figura 4. LOFT con Testlets por Secciones

Prueba adaptativa computarizada (CAT-FL, CAT-VL)
Una prueba adaptativa computarizada administra elementos que están cerca del nivel de habilidad del examinado individual (ver Figura 5). Esto crea una medición más eficiente de lo que es posible con formas no adaptativas, pero crea la percepción entre los examinados de que las pruebas CAT son más difíciles en comparación con las pruebas construidas como formas fijas. Esta percepción se debe a la realidad de que los elementos seleccionados para cualquier examinado están orientados a la competencia de ese individuo según lo determinado a partir de elementos anteriores administrados en la sesión de prueba. Esta eficiencia de medición se puede aprovechar para crear una prueba de longitud fija (CAT-FL) que produce puntuaciones más precisas que una forma no adaptativa o una prueba de longitud variable (CAT-VL) que es más corta que una forma no adaptativa de Precisión comparable. CAT es más apropiado cuando se necesita una medición precisa a lo largo de la escala de habilidad. La puntuación numérica correcta o sumada no funcionará con las pruebas adaptativas: se deben utilizar los métodos de puntuación Rasch o IRT. Estos tienen en cuenta los parámetros invariantes de Rasch o de la teoría de respuesta de ítems de cada ítem que se responde correcta o incorrectamente. El CAT debe administrarse usando TCC.

Figura 5. Prueba adaptativa computarizada

Prueba de dominio computarizado (CMT)
Un problema para las juntas de credenciales que emplean métodos de administración lineales o CAT es que algunas decisiones de aprobación / rechazo se toman incorrectamente sin ningún método para determinar o limitar ese error de decisión. Los errores de clasificación, que reflejan estas decisiones incorrectas de aprobación / rechazo, implican dos tipos de errores: (A) falsos positivos, que implican personas que pasan que deberían fallar, y (B) falsos negativos, que implican personas con fallas que deben aprobar.

Estas decisiones incorrectas ocurren porque las pruebas casi nunca son medidas perfectas de los conocimientos y habilidades de interés. Las preguntas de prueba o las situaciones problemáticas son solo una muestra de todos aquellos relevantes para el trabajo de interés que podrían haberse hecho, y los que se hicieron pueden dar una imagen engañosa de las capacidades de algunos candidatos. Las soluciones típicas que no están basadas en la computadora para evitar decisiones incorrectas sobre el estado de aprobado / reprobado de un candidato implican aumentar o disminuir la puntuación de corte para una prueba de duración fija. Esto da como resultado que el tamaño del error de clasificación más importante aumente o disminuya en la dirección deseada, pero el tamaño del otro error de clasificación aumenta o disminuye en la dirección opuesta. Las pruebas de dominio computarizadas se diseñaron para aprovechar la computadora y resolver este problema de decisión incorrecta para los clientes sin requerir los grandes recursos que requiere CAT.

En una prueba de dominio computarizado (CMT) , algunos candidatos reciben más preguntas que otros candidatos. Las preguntas en un examen CMT se subdividen en grupos más pequeños de longitud fija de igual número de preguntas no superpuestas que cubren todo el contenido definido en las especificaciones de la prueba. Estas son las mismas especificaciones de prueba que resultaron de un análisis de trabajo estándar. Llamamos testlets a estos pequeños grupos de preguntas. El tamaño del testlet utilizado en cualquier examen CMT está directamente relacionado con el menor número de preguntas que se pueden formular y aún cubre proporcionalmente todo el plan de examen. (Hemos encontrado que entre 15 y 25 preguntas por testlet se ajustan a la mayoría de las tablas de especificaciones de exámenes). En un examen CMT, cada testlet se construiría para ser idéntico (igual) a cualquier otro testlet en dificultad promedio y en la distribución de puntajes y cada uno estaría diseñado para cubrir todo el plan de contenido de prueba de la misma manera.

En un examen CMT, todos los candidatos reciben primero una prueba de base. (Podemos pensar en la prueba base como la primera etapa de un proceso de prueba de varias etapas). La prueba base se compone de múltiples testlets seleccionados al azar de un grupo compuesto de testlets iguales no superpuestos. Los candidatos que se desempeñen en niveles extremos (alto o bajo) en esta prueba básica son aprobados o reprobados inmediatamente después de completarse. Los candidatos con rendimiento intermedio, para quienes es más probable un error de decisión incorrecta, reciben preguntas adicionales en forma de testículos individuales, lo que les brinda la oportunidad adicional de demostrar que han cumplido con el estándar establecido. Este proceso de administración de testlets adicionales a aquellos candidatos para quienes un error de decisión incorrecto es más probable continúa hasta que se alcanza la prueba de larga duración, momento en el cual se toma una decisión final de aprobar-reprobar idéntica a la realizada en un examen lineal de longitud completa . Este puntaje final de corte de longitud completa se determina de la misma manera que se determina un puntaje de corte de prueba lineal. Se realiza un estudio de puntaje de corte y el cliente decide sobre el puntaje de corte.

Se proporciona un ejemplo en la figura adjunta a continuación de cómo un examinado podría proceder a través de la CMT. Observe que hay siete etapas de prueba y que después de la primera etapa, el candidato aún se encuentra en la región "continuar" y recibe un testlet adicional. Este proceso de prueba continúa en este ejemplo hasta la tercera etapa, cuando el examinado cae en la región de falla y la prueba se detiene.

Una ventaja de CMT sobre las pruebas lineales es que permite al cliente especificar su tolerancia relativa para cometer cualquier error de decisión. La forma de las regiones pasa-continúa-falla que se muestra en la Figura 1 cambiará en función de estas decisiones del cliente. Además de establecer la puntuación de corte, el cliente decide qué error de decisión es más grave o si son igualmente graves. Nuestra investigación preliminar muestra que podemos clasificar a la mayoría de los candidatos utilizando el modelo CMT dentro de las tolerancias (pérdidas) expresadas por el cliente.

Una segunda ventaja de CMT sobre CAT es que se requieren menos preguntas para crear un grupo de testículos que las que se requieren para crear un grupo de elementos CAT (calibrado). Hemos descubierto que entre tres y cinco formularios de prueba lineales con algunos elementos superpuestos (comunes) son todo lo que se necesita para formar un grupo de testlets adecuado. Además, no son necesarias grandes muestras de candidatos. Hemos desarrollado métodos CMT que no utilizan la teoría de respuesta al ítem (IRT), pero que aún aprovechan la computadora. (Algunos de nuestros modelos CMT usan IRT, mientras que otros no. Esos modelos CMT que no usan IRT son muy fáciles de explicar a los candidatos, ya que usan el número de preguntas correctas en el cálculo de los puntajes). De hecho, algunos de nuestros modelos CMT no requieren que los elementos sean condicionalmente independientes entre sí ni que el contenido de la prueba sea unidimensional. Estos son los requisitos típicos de los grupos de artículos CAT que usan IRT.

Un ejemplo de cómo un candidato podría pasar por un examen CMT

(ver Kim y Cohen, 1998)
Prometric genera un informe de ensamblaje de formularios que captura; (a) estadísticas descriptivas del formulario de prueba en la escala de puntaje bruto e informe, (b) estadísticas de dificultad de ítem, discriminación y tiempo de respuesta por ítem, (c) errores estándar de medición condicionales para cada posible puntaje (si corresponde), (d) información de la prueba y funciones características de la prueba, si corresponde, (e) cumplimiento de cada formulario con el plan de prueba, (f) histogramas de tiempo de prueba y (g) distribuciones totales de puntaje de la prueba, si corresponde.

Volver a la página de referencia de entrega de prueba avanzada