Undersøgelsesbankudvikling

Sådan opbygges sikkerhed og fleksibilitet

Nogle klienter foretrækker eksamener, der ikke er faste formularer, men som automatisk og tilfældigt kan genereres fra en bank med varer på det tidspunkt, hvor kandidaten sætter sig ned for at teste. Prometric har kapacitet til at udvikle eksamensbanker, der understøtter flere typer bankbaseret test.

Lineær on-the-Fly-test (LOFT).

LOFT er samlingen af præ-sidestilte former i testcentret lige før eller under administrationen af testen. LOFT (figur 2) bruges til at generere unikke sammenlignelige faste formularer for hver testoptager. LOFT er muligt, når alle emner er for-testet og placeret i en fælles skala. For at være praktisk skal LOFT administreres ved hjælp af computerbaseret test (CBT).

Konstruktionen af testformen vil have en direkte effekt på konstruktionen af testpoolen til LOFT-test. De fleste varepuljer til LOFT indeholder mindst 10 gange antallet af testemner, der kræves til en hvilken som helst form. Varepuljer samles ved hjælp af statistiske specifikationer og indholdsspecifikationer med så meget opmærksomhed på detaljer, som om der blev samlet en enkelt test (Ariel, van der Linden, & Veldkamp, 2006). Hver varepool er konstrueret ud fra en vare moms, der indeholder mange afprøvede emner med varestatistikker og indholdsspecifikationer (Way, 1998) samt indikatorer for cueing og overlappende indhold. Varevarer er grundlaget for samling af varepooler til CBT-arkitekturer, der kræver mange genstande, såsom LOFT.

LOFT med testlets.

Testlet-niveau LOFT bruger præmonterede unikke testlets snarere end individuelle genstande til at opbygge individualiserede former på testcentret. Hver testlet indeholder unikke genstande, der kun hører til en testlet, men alligevel er de konstrueret til at repræsentere hele testspecifikationen (figur 3), eller de kan fokusere på forskellige sektioner af testplanen (figur 4). De fleste testlets indeholder 15 til 25 varer hver afhængigt af testspecifikationerne. I det tidligere tilfælde kombineres et tilfældigt valgt sæt parallelle testlets for at skabe den endelige form. I sidstnævnte tilfælde vælges en testlet tilfældigt for hvert indholdsområde og kombineres for at skabe den endelige form.

Testlets kan konstrueres ved hjælp af klassiske, Rasch eller artikel respons teori modeller. LOFT med testlets er passende, når emner er for-testet, og når (a) testplanen er enkel nok til at blive samplet med en enkelt testlet og / eller (b) puljen er stor nok til at oprette flere parallelle testlets. LOFT med testlets skal administreres ved hjælp af CBT.

Krav til varevolumen for LOFT med testlets, hvor disse testlets er ækvivalente i indhold og statistiske egenskaber til enhver anden testlet i poolen er ca. fem testformer i fuld længde. Naturligvis oversættes flere poster til mere mulige kombinationer af unikke testformer, med den samme testlet muligvis vises på mange forskellige, men unikke testformer. For LOFT med testlets, der er samlet i forskellige sektioner af testplanen, øges varekravene til ca. ti testformer i fuld længde på grund af forskellene i antallet af spørgsmål, der kræves i hvert afsnit af planen.

Varevotter er store samlinger af afprøvede spørgsmål (Way, 1998), der bruges til at konstruere LOFT-varepuljer, som derefter frigives til feltet til administration. Puljer roteres ofte ind og ud af forskellige administrationsvinduer for at hjælpe med eksponeringskontrol og som en foranstaltning beregnet til at opretholde testsikkerhed og integriteten af scoringerne (Ariel, Veldkamp, & van der Linden, 2004). Men hvis der er en samordnet indsats fra nogle testtagere for at bryde sikkerheden ved testindholdet, er disse rotationsforanstaltninger ikke uundgåelige.

Figur 3. LOFT med testlets over hele planen

Figur 4. LOFT med testlets efter sektioner

Computerstyret adaptiv test (CAT-FL, CAT-VL)

En computeriseret adaptiv test administrerer genstande, der er tæt på den individuelle testmands evne (se figur 5). Dette skaber en mere effektiv måling end muligt med ikke-adaptive former, men skaber dog opfattelsen blandt testtagere om, at CAT-test er vanskeligere sammenlignet med test konstrueret som faste former. Denne opfattelse skyldes den virkelighed, at de emner, der er valgt til en enkelt undersøgt, er rettet mod den enkeltes færdighed som bestemt fra tidligere poster administreret i testsessionen. Denne måleeffektivitet kan udnyttes til at skabe en test med fast længde (CAT-FL), der giver mere præcise scoringer end en ikke-adaptiv form eller en variabel længde-test (CAT-VL), der er kortere end en ikke-adaptiv form af sammenlignelig præcision. CAT er mest passende, når der er behov for en nøjagtig måling langs evnen skala. Antal korrekt eller summeret score fungerer ikke med adaptiv test: Rasch- eller IRT-scoringsmetoder skal bruges. Disse tager højde for de ufravigelige Rasch- eller elementresponsteori-parametre for hvert element, der besvares korrekt eller forkert. CAT skal administreres ved hjælp af CBT.

Figur 5. Computerized Adaptive Testing

Computerized Mastery Testing (CMT)

Et problem for oplysningspladser, der anvender lineære eller CAT-administrationsmetoder, er, at nogle pas-fail-beslutninger træffes forkert uden nogen metode til at bestemme eller begrænse den beslutningsfejl. Klassificeringsfejl, der afspejler disse forkerte beslutninger, der ikke har bestået mislykket, involverer to typer fejl: (A) Falske positive, som involverer forbipasserende personer, der skal fejle, og (B) falske negativer, som indebærer svigtede personer, der skal passere.

Disse forkerte beslutninger forekommer, fordi test næsten aldrig er perfekte mål for viden og færdigheder af interesse. Testspørgsmål eller probleemsituationer er kun et eksempel på alle dem, der er relevante for det interesserede job, der kunne have været stillet, og dem, der blev stillet, kan give et vildledende billede af evnerne for nogle kandidater. Typiske ikke-computerbaserede løsninger til at undgå forkerte beslutninger om en kandidats pas-fail-status involverer at hæve eller sænke cutoff-score til en test i fast længde. Dette resulterer i, at størrelsen af den mere vigtige klassificeringsfejl forøges eller mindskes i den ønskede retning, men størrelsen af den anden klassificeringsfejl forøges eller mindskes i den modsatte retning. Computerstyret testning var designet til at drage fordel af computeren og løse dette forkerte beslutningsproblem for klienter, mens de ikke kræver de store ressourcer, som CAT kræver.

I en computeriseret mestringstest (CMT) får nogle kandidater flere spørgsmål end andre kandidater. Spørgsmålene i en CMT-undersøgelse er opdelt i mindre grupper med fast længde med lige mange ikke-overlappende spørgsmål, der dækker alt det indhold, der er defineret i testspecifikationerne. Dette er de samme testspecifikationer, der blev resultatet af en standard jobanalyse. Vi kalder disse små grupper af spørgsmål testetter. Testletstørrelsen, der bruges i enhver CMT-undersøgelse, er direkte relateret til det mindste antal spørgsmål, der kan stilles og dækker stadig forholdsmæssigt hele testplanen. (Vi har fundet, at hvor som helst fra 15 til 25 spørgsmål pr. Testlet passer til de fleste eksamens testspecifikationstabeller.) I en CMT-undersøgelse ville hver testlet konstrueres til at være identisk (lige) som hver anden testlet i gennemsnitlige vanskeligheder og spredning af score og hver ville være designet til at dække hele testindholdsplanen på samme måde.

I en CMT-eksamen får alle kandidater først en basetest. (Vi kan tænke på basetesten som det første trin i en multistages testproces.) Basetesten er sammensat af flere testetter valgt tilfældigt fra en pulje sammensat af ikke-overlappende lige testlets. Kandidater, der optræder på ekstreme niveauer (høj eller lav) på denne basetest, bestås eller mislykkes umiddelbart efter afslutningen. Disse kandidater med mellemliggende præstation - for hvem en forkert beslutningsfejl er mest sandsynlige - får yderligere spørgsmål i form af enkelt testlets, hvilket giver dem yderligere mulighed for at demonstrere, at de har opfyldt den etablerede standard. Denne proces med at administrere yderligere testlets til de kandidater, for hvilke en forkert beslutningsfejl mest sandsynligt er, fortsætter, indtil testen i fuld længde er nået, på hvilket tidspunkt en endelig pas-fail-beslutning er taget identisk med den, der blev truffet i en lineær eksamen i fuld længde . Denne endelige cut-out i fuld længde bestemmes på samme måde som en lineær test-cutoff-score bestemmes. Der gennemføres en cut-score-undersøgelse, og klienten bestemmer cutoff-score.

Et eksempel er tilvejebragt i den ledsagende figur nedenfor, hvordan en eksaminand kan fortsætte gennem CMT. Bemærk, at der er syv trin i test, og at kandidaten stadig er i den første fase, og fortsætter i regionen "fortsæt", og får derfor en yderligere testlet. Denne testproces fortsætter i dette eksempel indtil den tredje fase, hvor eksaminanden falder i fail-regionen og testingen stopper.

En fordel ved CMT i forhold til lineær test er, at det tillader klienten at specificere deres relative tolerance for at foretage en af beslutningsfejl. Formen på regionerne med pass-continue-fail vist i figur 1 vil ændre sig baseret på disse klientbeslutninger. Ud over at indstille cutoff-score bestemmer klienten, hvilken beslutningsfejl er mere alvorlig, eller hvis de er lige så alvorlige. Vores foreløbige undersøgelse viser, at vi kan klassificere de fleste kandidater ved hjælp af CMT-modellen godt inden for de tolerancer (tab), der er udtrykt af klienten.

En anden fordel ved CMT i forhold til CAT er, at færre spørgsmål kræves for at oprette en testlet-pool, end der kræves for at oprette en CAT (kalibreret) varepool. Vi har fundet, at hvor som helst fra tre til fem lineære testformer med et par overlappende (almindelige) genstande er alt, hvad der er nødvendigt for at danne en passende testletpulje. Store prøver af kandidater er heller ikke nødvendige. Vi har udviklet CMT-metoder, der ikke bruger item response theory (IRT), men stadig drager fordel af computeren. (Nogle af vores CMT-modeller bruger IRT, mens andre ikke. Disse CMT-modeller, der ikke bruger IRT, er meget lette at forklare for kandidaterne, da de bruger antallet af spørgsmål, der er korrekte til beregning af scoringer.) Faktisk er nogle af vores CMT-modeller kræver ikke, at emner skal være betinget uafhængige af hinanden, og det kræves heller ikke, at testindhold er ensartet. Dette er typiske krav til CAT-varepuljer, der bruger IRT.

Et eksempel på, hvordan en kandidat kan fortsætte gennem en CMT-undersøgelse

(se Kim & Cohen, 1998)

Prometric genererer en formularsamlingsrapport, der fanger; (a) beskrivende statistiske testformer i skalaen for rå og rapport score, (b) vanskeligheder ved objektet, diskrimination og responstid statistik efter emne, (c) betingede standardfejl til måling for hver mulig score (hvis relevant), (d) testoplysninger og testkarakteristiske funktioner, hvis relevant, (e) overensstemmelse med hver form med testplanen, (f) testtidens histogrammer og (g) totale testresultatfordelinger, hvis relevant.

Tilbage til avanceret referenceside for testlevering