コンピューターベースのテストアイテム開発に関する考慮事項

コンピュータ化されたテストを開発および提供する組織は、セキュリティ、心理測定の編集、法的弁護に関する問題など、従来の紙と鉛筆のテストで働いているものと同じ課題の多くに直面します。特に、インターネットを介してテストがより広く管理されるため、コンピューターベースのテスト（CBT）でも新しい問題が発生します。これらの問題には、候補者の不正行為とアイテムの過剰露出のリスクの増加が含まれます。

一般的なテストとCBTを取り巻くいくつかの新しい問題によって提示される進行中の課題に対処するには、組織はテスト項目開発と心理測定編集の標準プロセスに従う必要があります。たとえば、複数のアイテムライターを使用してテストコンテンツを開発することは一般的な方法ですが、テストアイテムのスタイル、形式、および難易度にばらつきが生じる可能性があります。テンプレートとアイテム開発の標準およびルールを含むスタイルガイドは、アイテムの一貫性、形式、および多様性の向上に大いに役立ちます。さらに、コンテンツ開発トレーニングにより、ライターは、同じ質問のさまざまなバリエーションを作成するために使用できる、信頼できる防御可能なアイテムおよびアイテムテンプレートを開発するツールを使用できるようになり、それにより、アイテムバンクのサイズが短時間で増加します。

現場でのテスト項目の統計的評価により、組織は特定の項目のパフォーマンスと認知レベルに関するフィードバックを取得できます。このインテリジェンスにより、アイテム開発プロセスの改訂と特定のテストアイテム開発者へのフィードバックが可能になり、フィールドで効果的なものとアイテムの評価方法を決定できます。これにより、組織はアイテムの保持、変更、および割り当てを決定できます。

テストを開発または管理する組織は、心理測定の編集プロセス（アイテムの難易度の評価を含み、文法、感度、スタイルなどを考慮した編集プロセス）を意識する必要があります。サイコメトリックスは、並行オプション、質問に回答するのに十分な情報、回答の長さなど、テスト項目の形式と機能のレビューも提供します。

客観性が重視されるため、心理測定の編集は、主題の専門家やアイテム作成者ではなく、テスト開発の専門家が行うのが最適です。心理測定編集の複雑さを訓練された個人は、主題の専門家やアイテムライターとは異なる、重要な観点からアイテムを評価します。ただし、適切な分野の専門家による最終的な編集済みアイテムのレビューと承認も必要です。

CBTおよびPPT用に開発されたアイテムは、法的異議が発生した場合の保護を確保するために法的に弁護可能でなければなりません。法的防御を確保するために、組織は上記のように、アイテム開発および心理測定レビューのための標準プロセスを実装する必要があります。

法的弁護の評価には、 教育的および心理的検査の基準に従って試験が開発されたことを確認するために、内容と心理測定の両方の観点から試験の批判的なレビューが含まれます。問題の試験の信頼性を評価する場合、裁判所は基準に従います。法的弁護は、いくつかの方法論によって達成できます。開発プロセスの最も重要な側面は、標準化された方法論に従い、文書化し、プロセスに適切なテスト開発担当者を含めることです。テスト開発プロセスにはさまざまなステップがあり、各ステップで使用できる方法論は異なります。たとえば、試験のカットスコアを決定するとき、Modified AngoffやBookmark Methodなどのプロセスを使用して、合格するための適切な基準を決定できます。各メソッドは、異なる手法を使用して、合格ステータスを取得するために候補者が到達する必要があるバーを決定します。

アイテムの過剰露出のリスクを軽減するために、テスト会社は、テストコンテンツが定期的に更新される大規模なテストアイテムバンクを開発します。コンピュータベースのテストを管理する組織は、大規模なテスト開発者と管理者からリードを取り、候補者が同じアイテムやデザインを見ることがないように拡張アイテムバンクとスケジュールテストアイテムの更新を使用することを検討します。情報。

多くのハイステークテストプログラムでは、テスト管理者がフォレンジックデータを収集および検査して、テスト候補者が特定のテストアイテムにさらされる頻度、候補者がアイテムに費やす平均時間、およびアイテムに対する候補者の応答が時間と露出によってどのように変化するかを測定します。これにより、アイテム開発プロセスとコンテンツの継続的な調整が保証され、信頼性、合法性、およびセキュリティが確保されます。

また、試験後の候補結果を分析して実装できるさまざまな方法論があります。これらのタイプの分析の1つは、テスト項目のグループパフォーマンスを評価する差分項目分析です（グループは性別、民族性、またはその他の要因によって定義される場合があります）。その後、候補者のグループ間でパフォーマンスが大幅に異なるアイテムは、将来の使用を決定するために再評価されます。

コンピュータベースのテスト用のコンテンツを開発する際に考慮すべき多数の要因はすべて、試験自体に信頼性と整合性をもたらします。テストプログラムの設計と実装を思慮深く検討できる組織は、急いでコンピューターベースのテストに移行する組織よりも積極的に対応できます。アイテムの開発と編集のリソース、およびセキュリティとITパラメーターを考慮したプロアクティブなアプローチは、テストの妥当性、候補者の公平性を高め、法的課題に対するより高いレベルの保護を提供するため、組織が長距離にわたってより良く機能します。

テストの効率性と法的防御のページに戻る