Powody wstępnego testowania

Każdy program testujący musi opracować procesy włączania nowych treści do swoich egzaminów. Wstępne testowanie przedmiotów przed użyciem ich jako punktowanych punktów na egzaminie na żywo odbywa się z dwóch kluczowych powodów:

  1. Ocena statystyczna przedmiotów: Wstępne testowanie przedmiotów pozwala na zebranie statystyk dotyczących wyników kandydatów w odniesieniu do każdego nowego przedmiotu. Niezależnie od tego, jak dobry jest proces opracowywania testów, możliwe jest, że przedmioty wysokiej jakości będą działać nieoczekiwanie w populacji kandydatów. Ocena statystyk przedtestowych pozwala potwierdzić, że nowo opracowane elementy działają w ramach akceptowalnych parametrów statystycznych przed elementem wpływającym na wynik egzaminu.
  2. Zbieranie danych statystycznych do zrównania: Aby zapewnić, że każdy kandydat otrzyma egzamin o równej trudności, wstępne wyrównanie formularzy egzaminacyjnych jest pożądaną metodą opracowywania testów. Administrowanie egzaminami z całego banku na określonym poziomie trudności wymaga, aby elementy aktywne używane w banku egzaminacyjnym były powiązane z danymi statystycznymi. Ciągły, ustandaryzowany proces wstępnego testowania nieustannie zasila bank przedmiotów i zapewnia, że można wykonać wstępne wyrównanie.

Ocena przedmiotu i wstępne wyrównanie mają na celu stworzenie prawidłowego procesu testowania, który jest sprawiedliwy dla wszystkich kandydatów. Kombinacja tych procesów w ramach ogólnego planu rozwoju zapewnia, że każdy element prezentowany na żywo kandydatom ma się dobrze i że każdy kandydat otrzymuje egzamin o odpowiedniej trudności. To stwarza podstawy do obronnego programu testowania.

Poniższe informacje obejmują główne uwagi dotyczące każdego programu zawierającego proces wstępnego testowania.

Sposób dostawy

Istnieją różne metodologie wstępnego testowania - dwie główne metodologie to (1) osobne formularze testowe i (2) testowanie wstępne osadzone w istniejącym formularzu.

Oddzielne formularze wstępne

Niektóre programy wolą całkowicie oddzielić proces wstępnego testowania od administracji egzaminu na żywo. Aby osiągnąć ten cel, konieczne jest stworzenie osobnych egzaminów wstępnych, które mogą być przeprowadzone na populacji kandydatów. Całe egzaminy wstępne są tworzone z taką samą proporcją elementów, które są obecne w formularzu egzaminu na żywo. Oddzielne formularze testu wstępnego są zazwyczaj podawane kandydatom na ochotników podczas specjalnych administracji testu wstępnego. Kandydaci na wolontariuszy powinni możliwie dokładnie reprezentować ten sam typ puli kandydatów, który zazwyczaj przystępuje do egzaminu na żywo.

Zaletą tego podejścia jest to, że nie ma to żadnego wpływu na jakość testowania na żywo. Kandydaci, którzy uczestniczą w sesjach wstępnego testowania, robią to dobrowolnie iz pełną świadomością procesu. Wady tego podejścia obejmują (1) wydłużone ramy czasowe gromadzenia danych oraz (2) potencjalne przekrzywienie puli kandydatów i późniejszych danych z testu wstępnego. Gdy proces przedtestowy opiera się na wolontariuszach, zebranie wystarczająco dużej próbki kandydatów na ogół zajmuje więcej czasu, aby umożliwić analizę danych przedtestowych. Ponadto proces polegający na kandydatach na ochotników z natury zmienia skład puli kandydatów. Ponieważ zazwyczaj zmotywowani kandydaci, którzy osiągają wysokie wyniki, zgłaszają się na egzamin wstępny, grupa kandydatów nie jest już reprezentatywna dla pełnego zakresu osób przystępujących do egzaminu na żywo. Ta potencjalna zmiana puli kandydatów z przeważnie wysokimi wynikami może zniekształcić wynikowe dane z testu wstępnego.

Przedmioty testowe osadzone w istniejącej formie

Druga metodologia wstępnego testowania polega na włączeniu niewielkiego odsetka przedmiotów do testów wstępnych do istniejących formularzy egzaminacyjnych. Metodologia ta pozwala na stopniowe wstępne testowanie przedmiotów podczas regularnych administracji egzaminów. Zaletą tego podejścia jest to, że kandydaci odpowiadający na pytania z testu wstępnego to ci sami kandydaci przystępujący do egzaminu na żywo - co znacznie eliminuje możliwość zanieczyszczenia puli kandydatów. Ponieważ proces ten nie wiąże się z korzystaniem z wolontariuszy, umożliwia on również gromadzenie danych z badań wstępnych w najbardziej efektywny sposób, zmniejszając opóźnienia w gromadzeniu danych z powodu długiego czasu rekrutacji wolontariuszy.

Wady tego podejścia obejmują zwiększenie liczby pozycji na egzaminie. Zwiększenie liczby elementów na egzaminie może zwiększyć lęk i zmęczenie kandydata w odpowiedziach na pytania na egzaminie. Po drugie, mniejsza liczba elementów wstępnych testów jest testowana w ramach istniejących formularzy niż w osobnych formularzach wstępnych testów. Dlatego należy ustanowić protokół w celu rotacji elementów testu wstępnego w rozsądnych ramach czasowych.

Ujawnienie kandydata

Większość profesjonalistów zajmujących się opracowywaniem testów zaleca ujawnienie kandydatów przed rozpoczęciem egzaminu. Istnieją jednak opcje dotyczące ilości informacji, które są ujawniane populacji kandydatów.

  1. Znajomość liczby elementów testu wstępnego: Zazwyczaj przed egzaminem kandydatom mówi się, ile elementów testu wstępnego pojawi się na egzaminie. Kandydaci są również informowani, że elementy przedtestowe nie wpłyną na ich ogólny wynik.
  2. Znajomość dokładnych elementów przedtestowych: zwykle kandydatom nie mówi się dokładnie, które elementy są przedtestowe. Ma to na celu upewnienie się, że kandydaci odpowiadają na pytania z testu wstępnego w taki sam sposób, jak na pytania z egzaminu na żywo (z uczciwą chęcią prawidłowego udzielenia odpowiedzi na pytanie).

Metoda prezentacji

Jeśli elementy testu wstępnego są osadzone w istniejącym formularzu, istnieją różne sposoby prezentowania elementów testu wstępnego. Trzy metodologie opisano poniżej.

  1. Rozpoczęcie egzaminu: Wszystkie elementy przedtestowe mogą być przedstawione w części na początku egzaminu.
  2. Koniec egzaminu: Wszystkie elementy przedtestowe mogą być przedstawione w części na końcu egzaminu.
  3. Rozpowszechniane podczas egzaminu: Elementy mogą być dystrybuowane w odpowiednich sekcjach treści w ramach egzaminu.

Aby upewnić się, że kandydaci odpowiadają na pytania z testu wstępnego, tak jak na żywo na egzaminie, Prometric zaleca, aby przedmioty z testu wstępnego były rozprowadzane w całym formularzu egzaminu. Pomaga to upewnić się, że kandydaci nie zgadną sekcji testu wstępnego, a tym samym zmodyfikują swoje wyniki na tych elementach.

Odsetek przedmiotów z testu wstępnego w istniejącej formie

Zazwyczaj zaleca się, aby przedmioty przed testem nie przekraczały 10% wszystkich przedmiotów na egzaminie (np. Egzamin na 40 przedmiotów nie powinien zawierać więcej niż 4 elementy z testu wstępnego). Ograniczenie liczby elementów przedtestowych zmniejsza prawdopodobieństwo zmęczenia kandydata i zazwyczaj eliminuje potrzebę wydłużania czasu testowania.

Liczba ekspozycji kandydatów przed analizą

W przypadku klasycznej teorii testów, Prometric zaleca minimum 100 ekspozycji kandydujących na pozycję przed badaniem w celu oceny żywotności statystycznej. Dodatkowe ekspozycje kandydata (powyżej minimum 100) zwiększają stabilność danych kandydata i zwiększają uogólnienie wyników testu wstępnego.

Optymalne parametry dla przejścia testu wstępnego do elementu aktywnego

W poniższej sekcji opisano ogólne wytyczne, według których wewnętrzni psychometrycy Prometric oceniają elementy przedtestowe. Chociaż poszczególne programy mogą się różnić, wytyczne te są pomocne w ogólnych celach oceny. Należy pamiętać, że te wytyczne dotyczą tylko tych programów, które wykorzystują klasyczną teorię testów.

Tabela 1: Podsumowanie specyfikacji statystycznych

Elementy zestawu formularzy i przeglądu statystycznego Specyfikacje / standardy
1. Zakres trudności przedmiotów Wartości p = 0,30 -8,89 (optymalne) *
2. Wartości docelowe dla wskaźników dyskryminacji produktów rpBis> .20
3. Zakresy docelowe dla oszacowań wiarygodności spójności wewnętrznej Alfa> .80
4. Zakresy docelowe dla oszacowań spójności lub wiarygodności klasyfikacji Livingston> .80

Dopuszczalne zakresy są większe niż zakresy optymalne i wyjaśniono je poniżej

Zamierzony zakres trudności przedmiotów

Wartość p = 0,30 do 0,89

Personel Prometric jest przeszkolony w zakresie rozpoznawania, że poszczególne wartości p nie reprezentują ani absolutnej, powtarzalnej wartości, ani nie gwarantują konkretnej interpretacji. Zamiast tego psychometrycy Prometryczni przeglądają wszystkie dostępne informacje o analizie przedmiotu w celu oceny trendów. Uwaga: same wartości p są niewystarczające dla większości interpretacji pozycji. Wszystkie podstawowe recenzje produktów uwzględniają wartości p i rpBis przed podjęciem decyzji o sprzedaży przedmiotów.

Tabela 2: Wytyczne dotyczące wartości p

Wartość p (od łatwej do twardej) Interpretacja przedmiotu
Od 1,00 do 0,96 Niedopuszczalne elementy o minimalnej wartości pomiarowej, które muszą zostać oflagowane w celu usunięcia lub zmiany przez MŚP
Od 0,90 do 0,95 Bardzo łatwe (prawdopodobnie niedopuszczalne) przedmioty: przejrzyj rpBis pod kątem odpowiedniej dyskryminacji. Może wymagać przeglądu moich MŚP.
Od 0,89 do 0,80 Dość łatwe (akceptowalne) przedmioty: przejrzyj rpBis, aby potwierdzić dyskryminację.
Od 0,79 do 0,40 Trudne do umiarkowanie łatwych (akceptowalnych) przedmioty: użyj, jeśli rpBi są zgodne ze specyfikacjami.
Od 0,39 do 0,30 Trudne (dopuszczalne) przedmioty: dokładnie sprawdź rpBis, użyj, jeśli rpBis są zgodne ze specyfikacjami.
Od 0,29 do 0,20 Bardzo trudne (być może niedopuszczalne) przedmioty: przejrzyj rpBis pod kątem odpowiedniej dyskryminacji. Może wymagać przeglądu przez MŚP.
Od 0,19 do 0,00 Niedopuszczalne przedmioty: nieodpowiednio trudne lub w inny sposób wadliwe. Musi zostać oznaczony do usunięcia lub zmiany przez MŚP.

Gdy okaże się, że element jest marginalny, programiści sprawdzają jego wartość rpBis. Jeśli rpBis jest wysoki, tolerancja jest większa, aby utrzymać ten element na egzaminie.

Wartości docelowe dla wskaźników dyskryminacji produktów

rpBis = 0,20 do 1,00

Tabela 3: Wytyczne rpBis

RpBis (od silnego do słabego) Interpretacja przedmiotu
1,00 do 0,50 Bardzo silny (dopuszczalny)
Od 0,49 do 0,30 Silny (dopuszczalny)
Od 0,29 do 0,20 Dopuszczalne (ale może wymagać przeglądu)
Od 0,19 do 0,10 Elementy marginalne (być może nieakceptowalne): dokładnie sprawdzaj tekst i rozpraszających.
Od 0,09 do 0,00 Słabe (niedopuszczalne) przedmioty: wartości p są prawdopodobnie bardzo wysokie. Zgłoś do usunięcia lub zmiany przez MŚP.
-0,01 do -0,20 Niedopuszczalne przedmioty: niewłaściwie trudne lub w inny sposób wadliwe. Musi zostać oznaczony do usunięcia lub zmiany przez MŚP.

Po ocenie statystyk na poziomie przedmiotu podejmowane są decyzje dotyczące każdego pojedynczego elementu. Przedmioty można (1) zaakceptować w obecnej postaci i umieścić w puli egzaminów na żywo, (2) zaakceptować z modyfikacjami i ponownie wprowadzić do puli testów wstępnych lub (3) odrzucić z dalszego wykorzystania.

Wróć do strony Wydajność testu i legalność