Sviluppo della banca d'esame

Come costruire in sicurezza e flessibilità

Alcuni clienti preferiscono esami che non sono moduli fissi, ma che possono essere generati automaticamente e casualmente da una banca di articoli nel momento in cui il candidato si siede per testare. Prometric ha la capacità di sviluppare banche d'esame che supportano diversi tipi di test basati su banche.

Test lineari al volo (LOFT).
LOFT è l'assemblaggio di moduli pre-equiparati presso il centro di test appena prima o durante la somministrazione del test. LOFT (Figura 2) viene utilizzato per generare forme fisse comparabili uniche per ciascun partecipante al test. LOFT è possibile quando tutti gli articoli sono pre-testati e posizionati su una scala comune. Per essere pratico, LOFT deve essere amministrato utilizzando test basati su computer (CBT).

La costruzione del modulo di prova avrà un effetto diretto sulla costruzione del pool di test per i test LOFT. La maggior parte dei pool di articoli per LOFT contiene almeno 10 volte il numero di articoli di test necessari per un singolo modulo. I pool di articoli vengono assemblati utilizzando specifiche statistiche e di contenuto con la stessa attenzione ai dettagli come se fosse stato assemblato un singolo test (Ariel, van der Linden e Veldkamp, 2006). Ogni pool di articoli è costruito da una vasca degli articoli che contiene molti articoli provati con statistiche degli articoli e specifiche del contenuto (Way, 1998) nonché indicatori per l'indicazione e la sovrapposizione del contenuto. Le vasche degli articoli sono la base per assemblare i lotti di oggetti per architetture CBT che richiedono molti oggetti, come LOFT.

LOFT con testlet.
A livello di testlet LOFT utilizza testlet unici pre-assemblati anziché singoli articoli per creare moduli personalizzati nel centro di test. Ogni testlet contiene elementi unici che appartengono solo a un testlet, ma sono costruiti per rappresentare l'intera specifica del test (Figura 3) o possono concentrarsi su diverse sezioni del progetto di test (Figura 4). La maggior parte dei testlet contiene da 15 a 25 articoli ciascuno a seconda delle specifiche del test. Nel primo caso un insieme di testlet paralleli scelti casualmente si combinano per creare la forma finale. In quest'ultimo caso, un testlet viene scelto casualmente per ciascuna area di contenuto e combinato per creare il modulo finale.

I testlet possono essere costruiti usando modelli classici, di Rasch o di teoria degli oggetti. LOFT con testlet è appropriato quando gli articoli sono pre-testati e quando (a) il modello di test è abbastanza semplice da essere campionato con un singolo testlet e / o (b) il pool è abbastanza grande da creare più testlet paralleli. LOFT con testlet deve essere somministrato mediante CBT.

Il volume richiesto per LOFT con testlet, in cui tali testlet sono equivalenti in termini di contenuto e caratteristiche statistiche a tutti gli altri testlet nel pool, è di circa cinque moduli di test completi. Naturalmente, più articoli si traducono in combinazioni più possibili di moduli di test unici, con lo stesso testlet che può apparire su molti moduli di test diversi ma unici. Per LOFT con testlet che sono assemblati all'interno di diverse sezioni del progetto di prova, i requisiti degli articoli aumentano a circa dieci moduli di prova completi a causa delle differenze nel numero di domande richieste in ciascuna sezione del progetto.

Le vasche degli oggetti sono grandi raccolte di domande provate (Way, 1998) che vengono utilizzate per costruire i lotti di oggetti LOFT che vengono successivamente rilasciati nel campo per l'amministrazione. I pool vengono spesso ruotati dentro e fuori dalle diverse finestre di amministrazione per aiutare con il controllo dell'esposizione e come misura intesa a mantenere la sicurezza dei test e l'integrità dei punteggi (Ariel, Veldkamp e van der Linden, 2004). Tuttavia, se c'è uno sforzo concertato da parte di alcuni partecipanti al test per violare la sicurezza del contenuto del test, queste misure di rotazione non sono invulnerabili.

Figura 3. LOFT con testlet su tutto il progetto

Figura 4. LOFT con testlet per sezioni

Test adattativi computerizzati (CAT-FL, CAT-VL)
Un test adattivo computerizzato amministra gli oggetti che si avvicinano al livello di abilità del singolo collaudatore (vedi Figura 5). Ciò crea una misurazione più efficiente di quanto sia possibile con le forme non adattative, ma crea la percezione tra gli acquirenti che i test CAT sono più difficili rispetto ai test costruiti come forme fisse. Questa percezione è dovuta alla realtà che gli elementi selezionati per ogni esaminato sono orientati alla competenza di quell'individuo come determinato dagli elementi precedenti amministrati nella sessione di test. Questa efficienza di misura può essere sfruttata per creare un test a lunghezza fissa (CAT-FL) che produce punteggi più precisi rispetto a una forma non adattativa o un test a lunghezza variabile (CAT-VL) più corto di una forma non adattativa di precisione comparabile. Il CAT è più appropriato quando è necessaria una misurazione precisa lungo tutta la scala delle abilità. Il punteggio corretto o sommato non funziona con i test adattativi: è necessario utilizzare i metodi di punteggio Rasch o IRT. Questi tengono conto dei parametri invarianti di Rasch o della teoria della risposta degli oggetti di ciascun articolo a cui viene fornita una risposta corretta o errata. CAT deve essere amministrato usando CBT.

Figura 5. Test adattativi computerizzati

Computerized Mastery Testing (CMT)
Un problema per le commissioni di credenziali che impiegano metodi di amministrazione lineari o CAT è che alcune decisioni pass-fail vengono prese in modo errato senza alcun metodo per determinare o limitare tale errore decisionale. Gli errori di classificazione, che riflettono queste decisioni pass-fail errate, comportano due tipi di errori: (A) falsi positivi, che coinvolgono individui di passaggio che dovrebbero fallire, e (B) falsi negativi, che comportano individui di fallimento che dovrebbero passare.

Queste decisioni errate si verificano perché i test non sono quasi mai misure perfette delle conoscenze e delle abilità di interesse. Le domande di prova o le situazioni problematiche sono solo un esempio di tutte quelle rilevanti per il lavoro di interesse che avrebbero potuto essere poste e quelle che sono state poste possono fornire un quadro fuorviante delle capacità di alcuni candidati. Le soluzioni tipiche non basate su computer per evitare decisioni errate sullo stato di fallimento del candidato comportano l'aumento o la riduzione del punteggio di cutoff per un test a lunghezza fissa. Ciò comporta che la dimensione dell'errore di classificazione più importante viene aumentata o diminuita nella direzione desiderata, ma la dimensione dell'altro errore di classificazione viene aumentata o diminuita nella direzione opposta. Il test di padronanza computerizzata è stato progettato per sfruttare il computer e risolvere questo problema di decisione errata per i client senza richiedere le grandi risorse richieste da CAT.

In un test di padronanza computerizzato (CMT) , ad alcuni candidati vengono poste più domande rispetto ad altri candidati. Le domande in un esame CMT sono suddivise in piccoli gruppi a lunghezza fissa di uguale numero di domande non sovrapposte che coprono tutto il contenuto definito nelle specifiche del test. Queste sono le stesse specifiche di test risultanti da un'analisi del lavoro standard. Chiamiamo questi piccoli gruppi di domande testlet. La dimensione del testlet utilizzata in qualsiasi esame CMT è direttamente correlata al numero più piccolo di domande che possono essere poste e copre ancora in modo proporzionale l'intero piano di test. (Abbiamo scoperto che da 15 a 25 domande per testlet si adattano alla maggior parte delle tabelle delle specifiche dei test degli esami.) In un esame CMT, ogni testlet sarebbe costruito per essere identico (uguale) a qualsiasi altro testlet in media difficoltà e diffusione di punteggi e ognuno verrebbe progettato per coprire l'intero piano di contenuto del test allo stesso modo.

In un esame CMT, a tutti i candidati viene prima somministrato un test di base. (Possiamo pensare al test di base come al primo stadio di un processo di test multistadio.) Il test di base è composto da più testlet selezionati a caso da un pool composto da testlet uguali non sovrapposti. I candidati che si esibiscono a livelli estremi (alti o bassi) in questo test di base vengono superati o falliti immediatamente dopo il completamento. Quei candidati con prestazioni intermedie - per i quali è più probabile un errore di decisione errata - ricevono ulteriori domande sotto forma di testlet singoli, consentendo loro ulteriori opportunità per dimostrare di aver soddisfatto lo standard stabilito. Questo processo di somministrazione di testlet aggiuntivi a quei candidati per i quali è più probabile un errore di decisione errato continua fino a quando non viene raggiunto il test integrale, a quel punto viene presa una decisione pass-fail finale identica a quella presa in un esame lineare completo . Questo punteggio di cutoff finale integrale viene determinato nello stesso modo in cui viene determinato un punteggio di cutoff di prova lineare. Viene condotto uno studio del punteggio di taglio e il cliente decide il punteggio di taglio.

Un esempio è fornito nella figura allegata di seguito su come un esaminante potrebbe procedere attraverso la CMT. Si noti che ci sono sette fasi di test e che dopo la prima fase, il candidato si trova ancora nella regione "continua" e riceve quindi un testlet aggiuntivo. Questo processo di test continua in questo esempio fino alla terza fase, quando l'esaminato cade nella regione fallita e il test si interrompe.

Un vantaggio di CMT rispetto ai test lineari è che consente al cliente di specificare la propria tolleranza relativa per commettere errori di decisione. La forma delle regioni pass-continue-fail mostrate nella Figura 1 cambierà in base a queste decisioni del cliente. Oltre a impostare il punteggio di cutoff, il cliente decide quale errore di decisione è più grave o se sono ugualmente gravi. La nostra ricerca preliminare mostra che possiamo classificare la maggior parte dei candidati usando il modello CMT ben entro quelle tolleranze (perdite) espresse dal cliente.

Un secondo vantaggio di CMT su CAT è che per creare un pool di testlet sono necessarie meno domande di quelle necessarie per creare un pool di elementi CAT (calibrato). Abbiamo scoperto che da tre a cinque moduli di test lineari con alcuni elementi (comuni) sovrapposti sono tutto ciò che è necessario per formare un pool di testlet adeguato. Inoltre, non sono necessari grandi campioni di candidati. Abbiamo sviluppato metodi CMT che non usano la teoria della risposta agli oggetti (IRT), ma sfruttano ancora il computer. (Alcuni dei nostri modelli CMT usano l'IRT, mentre altri no. Quei modelli CMT che non usano l' IRT sono molto facili da spiegare ai candidati, poiché usano il numero di domande corrette nel calcolo dei punteggi.) In effetti, alcuni dei i nostri modelli CMT non richiedono che gli articoli siano condizionatamente indipendenti l'uno dall'altro né che il contenuto del test sia unidimensionale. Questi sono i requisiti tipici dei pool di articoli CAT che utilizzano IRT.

Un esempio di come un candidato potrebbe procedere attraverso un esame CMT

(vedi Kim & Cohen, 1998)
Prometric genera un report di assemblaggio di moduli che acquisisce; (a) test delle statistiche descrittive nella scala dei punteggi grezzi e dei rapporti, (b) statistiche relative alla difficoltà, alla discriminazione e ai tempi di risposta per articolo, (c) errori standard condizionali di misurazione per ogni possibile punteggio (se appropriato), (d) informazioni di prova e funzioni caratteristiche di prova, se del caso, (e) conformità di ciascun modulo al modello di prova, (f) istogrammi del tempo di prova e (g) distribuzioni del punteggio totale della prova, se del caso.

Torna alla pagina di riferimento per la consegna di test avanzati