Årsager til pretesting

Ethvert testprogram skal udvikle processer til at inkorporere nyt indhold i deres undersøgelser. Forudprøvning af genstande, før du bruger dem som scorede genstande på en live-eksamen, udføres af to hovedårsager:

  1. Statistisk evaluering af poster: Prøveemner gør det muligt at indsamle statistikker vedrørende kandidatpræstationer på hvert nyt emne. Uanset hvor lydt testudviklingsprocessen er, er det muligt for kvalitetsartikler at prestere uventet i kandidatpopulationen. Evaluering af præstestatistikker giver mulighed for bekræftelse af, at nyudviklede genstande presterer inden for acceptable statistiske parametre inden det element, der påvirker en kandidats eksamensscore.
  2. Indsamling af statistik til ligestilling: For at sikre, at enhver kandidat modtager en eksamen med rimelig vanskelighed, er forudligning af eksamensformer en ønsket testudviklingsmetode. Administrering af eksamener fra en samlet bank til et specificeret vanskelighedsniveau kræver, at de live-poster, der bruges i eksamensbanken, har statistikker tilknyttet dem. En kontinuerlig, standardiseret forprøveproces fremfører kontinuerligt en varebank og sikrer, at forudligning kan udføres.

Elementevaluering og forudligning er begge designet til at skabe en gyldig testproces, der er fair for alle kandidater. Kombinationen af disse processer inden for en samlet udviklingsplan sikrer, at hver live-artikel, der præsenteres for kandidaterne, klarer sig godt, og at hver kandidat får en eksamen med rimelig vanskelighed. Dette skaber grundlaget for et forsvarligt testprogram.

Følgende information dækker de vigtigste overvejelser for ethvert program, der indeholder en forprøveproces.

Leveringsmåde

Der er forskellige metoder til rådighed til forprøvning - de to hovedmetodologier er (1) separate forprøveformer og (2) forprøvning indlejret i en eksisterende form.

Separate formularer til præstest

Nogle programmer foretrækker at adskille forprøveprocessen fuldstændigt fra administrationen af liveeksamen. For at nå dette mål er det nødvendigt at oprette separate forundersøgelser, der kan administreres til kandidatpopulationen. Hele pretesteksaminer oprettes med den samme andel af emner, der findes på live eksamensformularen. Separate forprøvningsformer administreres typisk til frivillige kandidater under specielle forudprøvningsadministrationer. Frivillige kandidater skal repræsentere så tæt som muligt den samme type kandidatpulje, der typisk ville tage liveeksamen.

Fordelene ved denne tilgang er, at live testoplevelsen ikke påvirkes på nogen måde. Kandidater, der deltager i forprøvningssessionerne, gør det frivilligt og med fuld opmærksomhed på processen. Ulemperne ved denne fremgangsmåde inkluderer (1) en udvidet tidsramme for dataindsamling og (2) en potentiel skævhed af kandidatpuljen og de efterfølgende forprøvningsdata. Når en pretest-proces er afhængig af frivillige, tager det generelt en længere periode at samle en stor nok prøve af kandidater til at muliggøre analyse af forprøvningsdataene. Derudover ændrer en proces, der er afhængig af frivillige kandidater, iboende sammensætningen af kandidatpuljen. Da det typisk er de motiverede, højtydende kandidater, der vil melde sig frivilligt til at tage en forprøveeksamen, er kandidatpuljen ikke længere repræsentativ for hele spektret af individer, der tager en liveeksamen. Denne potentielle ændring af kandidatpuljen med overvejende høje udøvere kan skjule de resulterende forprøvningsdata.

Forhåndsbestemte emner integreret i den eksisterende form

En anden forprøvningsmetode involverer inddragelse af en lille procentdel af forprøveemner i eksisterende eksamensformer. Denne metode tillader gradvis forprøvning af genstande under regelmæssige eksamensadministrationer. En fordel ved denne tilgang er, at kandidaterne, der reagerer på forprøvede emner, er de samme kandidater, der tager liveeksamen - hvilket i vid udstrækning eliminerer potentialet for en kontaminering af kandidatpuljen. Da denne proces ikke involverer brug af frivillige, tillader den også indsamling af præstationsdata på den mest effektive måde, hvilket reducerer forsinkelser i dataindsamling på grund af lang rekrutteringstid for frivillige.

Ulemperne ved denne tilgang involverer udvidelse af antallet af poster på undersøgelsen. Forøgelse af antallet af poster på en eksamen kan øge kandidatens angst og træthed i besvarelsen af spørgsmålene til eksamen. Sekundært testes et mindre antal forprøvede genstande inden for eksisterende former end i en separat forprøvesform. Derfor skal der oprettes en protokol for at rotere forudbestemte poster inden for en rimelig tidsramme.

Offentliggørelse af kandidater

De fleste testudviklere vil anbefale, at forprøveprocessen videregives til kandidaterne inden en eksamensadministration. Der er dog muligheder for, hvor meget information der videregives til kandidatpopulationen.

  1. Kendskab til antallet af forudindstillede genstande: Kandidaterne informeres typisk før prøven om, hvor mange forudindstillede genstande, der vises på eksamen. Kandidaterne informeres også om, at forprøvningsemnerne ikke vil påvirke deres samlede score.
  2. Kendskab til nøjagtige præstest-genstande: Kandidaterne får typisk ikke fortalt nøjagtigt, hvilke emner der er præstest-genstande. Dette gøres for at sikre, at kandidater besvarer foruddannelsesemnerne på samme måde som de besvarer liveeksamenelementer (med et retfærdigt ønske om at besvare emnet korrekt).

Præsentationsmetode

Hvis forprøveemner er indlejret i en eksisterende form, er der forskellige måder at præsentere forprøveemner på. Tre metoder beskrives nedenfor.

  1. Begyndelse af eksamen: Alle forprøvede genstande kan præsenteres i et afsnit i begyndelsen af eksamen.
  2. Afslutning af eksamen: Alle forprøvede genstande kan præsenteres i et afsnit ved afslutningen af eksamen.
  3. Distribueret gennem eksamen: Elementer kan distribueres inden for de relevante indholdsafsnit i prøven.

For at sikre, at kandidater besvarer forudgående emner, som de ville være et levende emne på eksamen, anbefaler Prometric, at forudindstillede emner fordeles i eksamensformularen. Dette hjælper med at sikre, at kandidater ikke gætter på forberedelsesafsnittet og derfor ændrer deres præstation på disse emner.

Procentdel af forudbestemte varer i en eksisterende form

Det anbefales typisk, at forprøveemner ikke overstiger 10% af det samlede antal emner på prøven (f.eks. Bør en 40-artikelseksamen ikke indeholde mere end 4 forprøveemner). Begrænsning af antallet af forprøvede genstande reducerer muligheden for kandidattræthed og eliminerer typisk behovet for at forlænge testtiden.

Antal kandidateksponeringer inden analyse

Ved klassisk testteori anbefaler Prometric mindst 100 kandidateksponeringer pr. Forprøveemne for at evaluere statistisk levedygtighed. Yderligere kandidateksponeringer (over minimum 100) øger stabiliteten af kandidatdataene og øger generaliserbarheden af præstestresultaterne.

Optimale parametre til overgang af pretest til live-vare

Følgende afsnit beskriver de generelle retningslinjer, hvorpå Prometric interne psykometrikere evaluerer præstestemner. Selvom individuelle programmer kan variere, er disse retningslinjer nyttige til den samlede evalueringsformål. Bemærk, at disse retningslinjer kun gælder for programmer, der bruger klassisk testteori.

Tabel 1: Resumé af statistiske specifikationer

Elementer af formsamling og statistisk gennemgang Specifikationer / standarder
1. Omfang af artikelvanskeligheder p-værdier = .30 -.89 (optimal) *
2. Målværdi (er) for indeksdiskrimineringsindeks rpBis> .20
3. Målområder for estimater af intern konsistenssikkerhed Alfa> .80
4. Målområder for estimater af klassificeringskonsistens eller pålidelighed Livingston> .80

Acceptable intervaller er større end optimale intervaller og forklares nedenfor

Påtænkt række af vanskeligheder med varerne

P-værdi = 0,30 til 0,89

Prometrisk personale trænes i at erkende, at individuelle p-værdier hverken repræsenterer en absolut, gentagelig værdi eller berettiger en konkret fortolkning. Snarere gennemgår prometriske psykometrikere alle tilgængelige oplysninger om elementanalyse for at evaluere tendenser. Bemærk: p-værdier alene er utilstrækkelige til de fleste varetolkninger. Alle grundlæggende varevurderinger indeholder p-værdier og rpBis inden beslutninger om disposition af emner.

Tabel 2: Retningslinjer for p-værdi

p-værdi (let til hårdt) Tolkning af emnet
1,00 til 0,96 Uacceptable elementer med minimal måleværdi, der skal markeres for fjernelse eller revision af SMV'er
0,90 til 0,95 Meget lette (muligvis uacceptable) genstande: gennemgå rpBis for tilstrækkelig forskelsbehandling. Måske skal jeg gennemgå mine SMV'er.
0,89 til 0,80 Temmelig let (acceptabelt) genstande: gennemgå rpBis for at bekræfte forskelsbehandling.
0,79 til 0,40 Svære til moderat lette (acceptable) genstande: Brug hvis rpBis er inden for specifikationerne.
0,39 til 0,30 Vanskelige (acceptable) genstande: gennemgå rpBis nøje, brug hvis rpBis er inden for specifikationerne.
0,29 til 0,20 Meget vanskelige (muligvis uacceptable) genstande: gennemgå rpBis for tilstrækkelig forskelsbehandling. Det kan være nødvendigt at gennemgå SMV'er.
0,19 til 0,00 Uacceptable genstande: Uhensigtsmæssigt vanskelige eller på anden måde mangelfulde. Skal markeres for fjernelse eller revision af SMV'er.

Når det konstateres, at en vare er marginal, ser udviklere på elementets rpBis. Hvis rpBis er høj, gives der mere tolerance for at beholde denne artikel på eksamen.

Målværdi (er) for indeks diskrimineringsindeks

rpBis = 0,20 til 1,00

Tabel 3: rpBis-retningslinjer

RpBis (stærk til svag) Tolkning af emnet
1,00 til 0,50 Meget stærk (acceptabel)
0,49 til 0,30 Stærk (acceptabel)
0,29 til 0,20 Acceptabel (men kan muligvis gennemgås)
0,19 til 0,10 Marginaler (muligvis uacceptable): gennemgå tekst og distraherende nøje.
0,09 til 0,00 Svage (uacceptable) poster: p-værdier er sandsynligvis meget høje. Flag til fjernelse eller revision af SMV'er.
-0,01 til -0,20 Uacceptable genstande: uhensigtsmæssigt vanskelige eller på anden måde mangelfulde. Skal markeres for fjernelse eller revision af SMV'er.

Efter evaluering af statistik på vareniveau træffes beslutninger om hver enkelt post. Elementer kan (1) accepteres som det er og placeres i den levende eksamenspool, (2) accepteres med ændringer og genindføres i pretest-puljen, eller (3) afvises fra yderligere brug.

Tilbage til siden Testeffektivitet og juridisk forsvarlighed