ひらめの日常

プログラミングと読書と

『テストは何を測るのか - 項目反応理論の考え方』まとめ1

項目反応理論のお勉強。公平な試験をどのように作っていくのか、理論的背景を学ぶ。

第1章 試験という「道具」を理解する

1.1 試験は「能力を測定するための道具=問題」の集合体

  • 受験者間で比較可能な尺度を用意し、その尺度を用いて受験者の能力を表示する。
  • 【構成概念】:一つの尺度で表すことができる対象。
  • 試験の設計とは、測りたい対象を構成概念として定義しておき、多数の問題に対する受験者の反応を手がかりに、尺度を構成する手続きのこと。

1.2 試験と擬似性格検査とアンケート

能力をどうやって問うのか?

  • 【擬似性格検査】:結果も重要視されないような性格検査のこと。(本書定義)
  • 擬似性格検査は問おうとしている構成概念に対して、明確な定義を与える必要がある。
    • 【概念的定義】:他の事象との関連性を列挙することで、抽象的概念を具体化していく定義の方法。
    • 【操作的定義】:問題に正解できれば能力が高いとする定義の方法。
      • 【妥当性の検証】:概念的定義に基づいて操作的定義が成り立つのであり、操作的定義により作成された問題が、概念的定義に基づく「本当に測りたい内容」と一致しているのかどうか検討する必要がある。

1.3 単一の尺度のによる測定

何が測定される対象かということが重要な検討要素。全ての試験において、試験で測定しようとしている構成概念を統一する必要がある。

  • 尺度は階層性を持つ(英語能力という上位尺度に対して、スピーキングが下位尺度、のように)。
  • 統一された単一尺度を扱うことで、試験のスコアに具体的な意味づけをすることが可能。
  • 学力の規準となる集団を定め、その集団と比較可能なように尺度を作ることが必要。
    • 【標準化】:規準となる集団と比較可能なように尺度を構成する手続き。
  • 多くの試験では、「スコアのでたは、今たまたま選ばれた受験者の実力を反映したものであり、その背景には多数の受験者が存在する。そして、それら多数の受験者の能力は、正規分布をしている」という仮定を置くことが一般的。
    • テストを受けていないが存在を仮定することができる多数の受験者を母集団と呼ぶ。
    • 実際に試験を受験したものをサンプルと呼ぶ。
  • 【標準化テスト】:規準集団を決め、学力の尺度を規準集団上で表示する標準化の手続きを経た試験。
  • 受験者の能力レベルに依存しない形の問題の難易度がわかれば、その難易度を調整することにより、複数の試験のスコアを比較することができる。→ 因子分析(後述)
  • 問題にはそれ固有の特性(項目特性)がある。難易度、識別力等々。 規準集団における原点と単位を定義し、続く試験の原点と単位を規準集団上に合わせる。
  • 尺度得点の計算
    • 規準集団の受験者が問題を解いた場合の、それぞれの問題に関する難易度の情報が必要。規準集団の受験者にとってどの問題がどの程度難しかったかがわかれば、試験の結果得られた受験者の正誤データを手掛かりに、受験者の能力が規準集団状でどこに位置するかを推測することができる。

1.4 ハイ・ステークスな試験のために:信頼性と妥当性の確保

「質の良い試験」とはなにか?そのためには「信頼性」と「妥当性」の観点からの議論が有用。

  • 【ハイ・ステークスな試験】:受験者にとって結果が人生を左右するような試験。逆はロウ・ステークス
  • 【信頼性】:常に受験者の能力の大小を言い当ててている。
  • 【妥当性】:試験で問われている内容と、実際に測定されるべき能力とがマッチしている。
  • 信頼性の確保
    • 試験問題に対する正解・不正解が能力の大小によってばらつくかどうかの程度をテストの信頼性という。
    • 同じ概念に対して複数の問題を出題し、正誤データに高い正の相関が見られた時 → 信頼性が高い。 (問題を複数出すことで、問題によるばらつきを抑えていく)
    • 信頼性の指標としては、試験問題の冊子全体に一つの値が与えられる。
      • 問題冊子全体の信頼性は、個々の問題文の信頼性の積み重ね。
  • 妥当性の確保
    • 構成概念妥当性がその試験にどの程度あるかが重要。
    • ある集団の測定結果を基にした尺度が、他の集団に対しても適用できるか?などなど
    • 数値的に表すことが難しい。
    • 統一的な見解がなされていない。