Dezvoltarea bancii de examene

Cum se construiește în securitate și flexibilitate

Unii clienți preferă examene care nu sunt formulare fixe, dar care pot fi generate automat și aleatoriu de la o bancă de articole în momentul în care candidatul se află la test. Prometric are capacitatea de a dezvolta bănci de examinare care acceptă mai multe tipuri de teste bazate pe bănci.

Testare liniară pe zbor (LOFT).
LOFT este ansamblul formelor pre-echivalate în centrul de testare chiar înainte sau în timpul administrării testului. LOFT (figura 2) este utilizat pentru a genera forme fixe comparabile unice pentru fiecare testator. LOFT este posibil atunci când toate articolele sunt pre-testate și plasate la o scară comună. Pentru a fi practic, LOFT trebuie administrat folosind testarea pe computer (CBT).

Construcția formularului de testare va avea un efect direct asupra construcției bazinului de testare pentru testarea LOFT. Majoritatea seturilor de articole pentru LOFT conțin cel puțin de 10 ori numărul de articole de test necesare pentru orice formular. Grupurile de articole sunt asamblate folosind specificații statistice și conținut, cu atâta atenție la detalii ca și cum ar fi fost montat un singur test (Ariel, van der Linden și Veldkamp, 2006). Fiecare set de articole este construit dintr-un obiect de stoc care conține multe elemente încercate cu statistici și specificații de conținut ale articolului (Way, 1998), precum și indicatori pentru conturarea și suprapunerea conținutului. Cuvele de articole sunt baza pentru asamblarea de articole pentru arhitecturi CBT care necesită multe articole, cum ar fi LOFT.

LOFT cu testule.
Testul la nivel de testlet folosește testule unice preasamblate mai degrabă decât articole individuale pentru a construi forme individualizate în centrul de testare. Fiecare testlet conține articole unice care aparțin doar unui testlet, totuși sunt construite pentru a reprezenta întreaga specificație a testului (Figura 3) sau pot concentra pe secțiuni diferite ale modelului de testare (Figura 4). Majoritatea testiculelor conțin 15 până la 25 de articole fiecare în funcție de specificațiile testului. În primul caz, un set de testule paralele ales la întâmplare se combină pentru a crea forma finală. În ultimul caz, un testlet este ales la întâmplare pentru fiecare zonă de conținut și combinat pentru a crea forma finală.

Testiletele pot fi construite folosind modele clasice, Rasch sau model de teorie a răspunsului articolului. LOFT cu testule este adecvat atunci când obiectele sunt pre-testate și când (a) modelul de testare este suficient de simplu pentru a fi eșantionat cu un singur testlet și / sau (b) piscina este suficient de mare pentru a crea mai multe testule paralele. LOFT cu testule trebuie administrat cu CBT.

Cerința de volum a articolului pentru LOFT cu testule, în cazul în care aceste testule sunt echivalente în conținut și caracteristici statistice pentru fiecare celălalt testlet din bazin este de aproximativ cinci forme de testare cu lungime completă. Desigur, mai multe articole se traduc în mai multe combinații posibile de forme de test unice, același testlet apare posibil pe mai multe forme de test diferite, dar unice. Pentru LOFT cu testule care sunt asamblate în diferite secțiuni ale modelului de testare, cerințele articolului cresc la aproximativ zece formulare de testare cu lungime completă din cauza diferențelor în numărul de întrebări solicitate în fiecare secțiune a modelului.

Cuvele pentru articole sunt colecții mari de întrebări încercate (Way, 1998), care sunt utilizate pentru a construi grupurile de articole LOFT care sunt ulterior lansate în câmp pentru administrare. Piscinele sunt adesea rotite în și din diferite ferestre de administrare pentru a ajuta la controlul expunerii și ca măsură destinată menținerii securității testului și a integrității scorurilor (Ariel, Veldkamp și van der Linden, 2004). Cu toate acestea, dacă există un efort concertat din partea unor testatori de a încălca securitatea conținutului testului, aceste măsuri de rotație nu sunt invulnerabile.

Figura 3. LOFT cu testule pe întregul plan

Figura 4. LOFT cu testule pe secțiuni

Testare adaptativă computerizată (CAT-FL, CAT-VL)
Un test adaptativ computerizat administrează obiecte care se află în apropierea nivelului de abilitate al individului-testator (a se vedea figura 5). Acest lucru creează o măsurare mai eficientă decât este posibil cu formele neadaptive, dar creează percepția în rândul testatorilor că testele CAT sunt mai dificile în comparație cu testele construite ca forme fixe. Această percepție se datorează realității că elementele selectate pentru oricare dintre examinatori sunt orientate către competența acelui individ, astfel cum a fost determinat din itemii precedenți administrați în sesiunea de testare. Această eficiență de măsurare poate fi valorificată pentru a crea un test cu lungime fixă (CAT-FL) care produce scoruri mai precise decât o formă neadaptivă sau un test cu lungime variabilă (CAT-VL) care este mai scurtă decât o formă non-adaptivă a precizie comparabilă. CAT este cel mai indicat atunci când este necesară o măsurare precisă pe toată scala de capacitate. Punctajul corect sau rezumat nu va funcționa cu testarea adaptativă: trebuie utilizate metode Rasch sau IRT. Acestea iau în considerare parametrii rasari invariați sau parametrii teoriei răspunsului articolului fiecărui articol la care se răspunde corect sau incorect. CAT trebuie administrat cu CBT.

Figura 5. Testare adaptativă computerizată

Testare computerizată de măiestrie (CMT)
O problemă a comisiilor de acreditare care utilizează metode de administrare liniare sau CAT este aceea că unele decizii de ratare a trecerii sunt luate incorect fără nicio metodă de a determina sau limita acea eroare de decizie. Erorile de clasificare, care reflectă aceste decizii incorecte de „pass-fail”, implică două tipuri de erori: (A) False pozitive, care implică trecerea persoanelor care ar trebui să eșueze și (B) false negative, care implică persoane care nu trebuie să treacă.

Aceste decizii incorecte apar deoarece testele sunt aproape niciodată măsuri perfecte ale cunoștințelor și abilităților de interes. Întrebările de testare sau situațiile cu probleme sunt doar un eșantion din toate cele relevante pentru postul de interes care ar fi putut fi solicitate, iar cele care au fost solicitate pot oferi o imagine înșelătoare a capacităților unora dintre candidați. Soluțiile obișnuite bazate pe computer pentru evitarea deciziilor incorecte cu privire la statutul de eșec al unui candidat implică creșterea sau scăderea punctajului limită pentru un test pe lungime fixă. Aceasta duce la creșterea sau scăderea dimensiunii erorii de clasificare mai importante în direcția dorită, dar dimensiunea celeilalte erori de clasificare este crescută sau scăzută în direcția opusă. Testarea computerizată a măiestriei a fost proiectată pentru a profita de computer și pentru a rezolva această problemă de decizie incorectă pentru clienți, fără a necesita resursele mari de care este nevoie CAT.

Într-un test computerizat de măiestrie (CMT) , unora dintre candidați li se administrează mai multe întrebări decât alți candidați. Întrebările dintr-un examen CMT sunt subdivizate în grupuri mai mici cu lungime fixă, cu număr egal de întrebări care nu se suprapun, care acoperă tot conținutul definit în specificațiile testului. Acestea sunt aceleași specificații de test care au rezultat dintr-o analiză de job standard. Numim aceste mici grupuri de întrebări testule. Mărimea testletului utilizată la orice examen CMT este direct legată de cel mai mic număr de întrebări care pot fi puse și acoperă în mod proporțional întregul plan de testare. (Am descoperit că oriunde între 15 și 25 de întrebări pe testlet se potrivesc majorității tabelelor de specificații ale testelor.) Într-un examen CMT, fiecare testlet ar fi construit pentru a fi identic (egal) cu toate celelalte testlet cu dificultate medie și răspândirea scorurilor și fiecare ar fi conceput pentru a acoperi întregul plan de conținut de test în același mod.

La un examen CMT, toți candidații li se administrează mai întâi un test de bază. (Putem gândi la testul de bază ca la prima etapă a unui proces de testare în mai multe etape.) Testul de bază este compus din mai multe testule selectate la întâmplare dintr-un bazin compus din testule egale care nu se suprapun. Candidații care participă la niveluri extreme (ridicate sau mici) la acest test de bază sunt trecuți sau nu au reușit imediat după finalizare. Acei candidați cu performanță intermediară - pentru care este probabil cea mai probabilă eroare de decizie incorectă - li se administrează întrebări suplimentare sub formă de testule unice, permițându-le posibilitatea de a demonstra că au îndeplinit standardul stabilit. Acest proces de administrare a testletelor suplimentare la acei candidați pentru care este posibilă o eroare de decizie incorectă continuă până la atingerea testului de lungime completă, moment în care o decizie finală de eșec este luată identic cu cea făcută într-un examen liniar de lungime completă . Acest scor final de întrerupere este determinat în același mod în care este determinat un scor liniar de întrerupere a testului. Se realizează un studiu de scor, iar clientul decide cu privire la scorul de reducere.

Un exemplu este prezentat în figura de însoțire de mai jos cu privire la modul în care un examinator ar putea proceda prin CMT. Observați că există șapte etape de testare și că după prima etapă, candidatul este încă în regiunea „continuă” și astfel primește un testlet suplimentar. Acest proces de testare continuă în acest exemplu până la a treia etapă, când examinatorul cade în regiunea eșecului și testarea se oprește.

Un avantaj al CMT față de testarea liniară este faptul că permite clientului să-și specifice toleranța relativă pentru luarea oricărei erori de decizie. Forma regiunilor pass-continue-fail prezentate în figura 1 se va modifica pe baza acestor decizii ale clientului. Pe lângă stabilirea scorului de reducere, clientul decide ce eroare de decizie este mai gravă sau dacă sunt la fel de grave. Cercetările noastre preliminare arată că putem clasifica majoritatea candidaților folosind modelul CMT în limitele toleranțelor (pierderilor) exprimate de client.

Un al doilea avantaj al CMT față de CAT este că sunt necesare mai puține întrebări pentru a crea un pool de testlet decât sunt necesare pentru a crea un pool de elemente CAT (calibrat). Am constatat că, de la trei la cinci formulare de test liniare, cu câteva articole (comune) suprapuse, toate sunt necesare pentru a forma un testlet adecvat. De asemenea, probe mari de candidați nu sunt necesare. Am dezvoltat metode CMT care nu folosesc teoria răspunsului elementelor (IRT), dar încă profită de computer. (Unele dintre modelele noastre CMT folosesc IRT, în timp ce altele nu. Aceste modele CMT care nu utilizează IRT sunt foarte ușor de explicat candidaților, deoarece folosesc un număr de întrebări corecte în calcularea scorurilor.) De fapt, unele dintre Modelele noastre CMT nu necesită ca elementele să fie independente condițional unele de altele și nu este necesar ca conținutul testului să fie unidimensional. Acestea sunt cerințele tipice pentru grupurile de articole CAT care utilizează IRT.

Un exemplu de modul în care un candidat poate proceda printr-o examinare CMT

(a se vedea Kim & Cohen, 1998)
Prometric generează un raport de asamblare a formularelor care surprinde; (a) statisticile descriptive ale formularului de testare în scala de scor brut și raport, (b) dificultățile, discriminarea și statisticile de timp de răspuns pe articol, (c) erori standard de măsurare condiționate pentru fiecare scor posibil (dacă este cazul), (d) informațiile de testare și funcțiile caracteristice ale testului, dacă este cazul, (e) conformitatea fiecărui formular cu modelul de testare, (f) histogramele timpului de testare și (g) distribuțiile scorului total al testului, dacă este cazul.

Înapoi la pagina de referință de livrare a testelor avansate