第 3 章 IRT 的簡介

IRT的理論牽涉到數學上的一個函數關係,這函數關係是將某一位學生答對某一題的機率,對應到該學生的能力參數\(\theta\)與該題目難度\(\delta\)之間的差距,即答對的機率是能力與難度之間差距的函數。該函數定義的是一個機率模型,因此該函數所取的值必須介於0到1之間,而且當學生的能力值越高,所對應的函數值也越高,換句話說,如果學生能力值越高,他答對該題的機率會越高。當我們以繪圖的方式,將答對的機率與\(\theta\) (學生能力)的函數關係繪製成一個圖形,該函數圖形應該會呈現類似英文字母S的S型曲線,該曲線的左側非常接近橫軸,即反映出答對機率接近於0。該圖形所對應的答對機率值會隨著能力值的增加而遞增,圖形最右側所對應的機率值將會非常接近1,但其值不會超過1。有很多數學的函數都可以用來描述這種S型曲線,當中包括 cumulative distribution functions (cdf) - 或稱為 ogives ,這類函數的圖形皆為S型曲線,而且其值都介於0到1之間的。以 the logistic ogivenormal ogive為例子,這兩者都有學者用來建立機率的模型。以下我們將會聚焦於用 logistic ogive (羅吉斯肩形圖)或 logistic cdf (羅吉斯累積分布函數)來建立這個機率模型。

3.1 Rasch 模型的介紹

丹麥學者 Rasch (Rasch 1960) 採用以下的函數來建立某學生答對某一題的機率模型,其中題目的難度為 \(\delta\) ,而學生的能力為 \(\theta\)

\[ Prob(X=1) = \frac{\exp(\theta - \delta)}{1+\exp(\theta - \delta)}\tag{3.1} \]

其中 \(X\) 是指學生在該題作答的得分,並以答錯為0分,答對為1分。

以下我們練習撰寫一個 R 的程式碼,並且用 R 的 plot 指令,一方面計算答對的機率,並繪製出(3.1) 的機率函數圖形。

rm(list=ls())  #刪除所有 R 環境中的物件

# 計算 Rasch model 中的機率
delta <- 0.6  #題目難度為 0.6
theta <- 1.0  #學生能力為 1.0
prob <- exp(theta-delta)/(1+exp(theta-delta))
prob

請你變更題目的難度(delta)與學生能力(theta)的值,並觀察 prob 如何改變。尤其是請你代入一些數據使得 (1) delta = theta、(2) delta > theta以及 (3) delta < theta。此外,當delta的值非常大與delta的值非常小的時候,所對應到的題目答對機率為何?

接著,我們利用方程式(3.1),將機率視為是\(\theta\) 的函數,並將它們的關係用圖形繪製出來。

#將機率prob視為是theta的函數,並計算其值

delta <- 1 #題目難度為 1
theta <- seq(-3,3,0.01) # theta值的產生是從-3到3,以0.01為單位遞增,並將這所有的值視為是一個向量
prob <- exp(theta-delta)/(1+exp(theta-delta)) #將機率prob視為是theta的函數,並計算其值
plot(theta,prob,type="l") #請注意, type 所取得的值是英文字母小寫的 l,而非數目字的 1。
題目特徵曲線 ICC

图 3.1: 題目特徵曲線 ICC

3.2 實作練習

請用(1) \(\delta=-1\)、(2) \(\delta=0\) 與 (3) \(\delta=1\)來繪製題目特徵曲線以做為練習。請用 prob1prob2prob3 做為變數名稱來儲存這三題的答對機率。實作上,若要將三個圖形繪製在同一個座標圖中,方法是第一個圖形用 plot 這個指令來繪製,而第二與第三個圖形則用 lines 這個指令來繪製,請參考以下例子。

plot(theta, prob1, type="l")
lines(theta, prob2)
lines(theta, prob3)

請你探索如何將這三個 ICC 圖形用不同的顏色來呈現。另外請你判別比較容易的題目的 ICC 曲線是在圖形的最右邊還是最左邊呢?

3.3 Theta 量尺的單位

\(\theta\)量尺是以 “logit” 為單位。請回答以下各題,並假設學生的作答反應服從Rasch 模型的要求:

  1. \(\theta=\delta\) 時,則題目答對的機率為何?
  2. \(\theta=2\) logit 與 \(\delta=1\) logit 時,則題目答對的機率為何?
  3. 當一個學生的能力值比題目難度值大1.5 logit時,則題目答對的機率為何?
  4. 當一個學生的能力值比題目難度值小0.6 logit時,則題目答對的機率為何?
  5. 此題為是非題:不管學生的能力值大小,學生的能力值與題目難度值的差值即可已決定題目的答對率。
  6. 請思考古典測驗理論中的題目難度與能力值的意涵,學生A在某一個測驗中,得了80%. 這個測驗中第一題有80%的學生答對. 我們是否能估計學生A答對第一題的機率?

3.4 平行的題目特徵曲線

在 Rasch 模型的架構下,所有題目特徵曲線都是「平行」的,它們都有相同的形狀,但它們卻位於能力量尺上不同的位置。這些特徵曲線不會相交,因此對每一個作答者來說,題目的難度的順序都是相同的,如果第二題比第一題困難,則每一位作答者都會感覺到第二題比第一題困難,即無論作答者的能力為何,他們每一個人都會認為第二題比第一題困難,這是Rasch模型一個非常重要的性質。

3.2 表示出 Rasch 模型的特徵曲線是平行的,而圖 3.3 表示的是雙參數模型的特徵曲線圖形,它們並非平行。

Rasch 模型的特徵曲線

图 3.2: Rasch 模型的特徵曲線

對任何人而言,在Rasch 模型下,第一題比第二題容易,第二題又比第三題容易。

3.3表示了雙參數模型的題目特徵曲線圖,並且可以觀察到它們並非平行。

雙參數模型的特徵曲線 ICC

图 3.3: 雙參數模型的特徵曲線 ICC

3.3 表示對一位能力值為-1 logit的作答者而言,第一題是最容易的題目,但對於一個能力值為2 logit的作答者來說,反而第二題是最容易的題目。

3.5 雙參數 IRT 模型

3.3的特徵曲線圖形表示出斜率並不相同,其中第二題的題目特徵曲線是最傾斜的,它是三題當中具有最高鑑別度的題目,而第一題的鑑別度是最低的。如果某一題的題目特徵曲線呈現得比較扁平,則該題較不能夠區分出高低能力的學生,因為高與低能力的學生答對該題機率會很接近。相較之下,如果某一題的題目特徵曲線斜率很高,則代表該題有較高的鑑別度,此時,高能力的學生比低能力的學生有比較高的機率答對該題。

觀察以下雙參數 IRT 模型的公式,除了題目難度的參數外,它還有一個鑑別度的參數:

\[ Prob(X=1) = \frac{\exp(a(\theta - \delta))}{1+\exp(a(\theta - \delta))}\tag{3.2} \]

其中 \(a\) 稱為鑑別度的參數。

3.6 Rasch 模型中的相對斜率(鑑別度)

在Rasch 模型中,所有鑑別度參數 \(a\) 均預設為取相同的值,然而,Rasch 模型的架構之下,它並沒有規定題目的鑑別度取哪一個定值,僅規定它們取相同的值。一般的專業軟體在估算該參數時,都會將鑑別度的參數 \(a\) 設為1。但請留意,如果有一組題目,本質上它們的鑑別能力很強,則能力(\(\theta\))的量尺將會被拉長,導致 \(\theta\) 變異數的值會比較大,而且題本的信度也會比較高。反之,如果這一組題目的鑑別能力並不強,則 \(\theta\) 變異數的值會偏小,而且題本的信度會比較低。

3.4 表示一組高鑑別度的題目,但在Rasch 模型的題目特徵曲線圖裡,量尺被拉長了,所以這些題目特徵曲線的斜率看起來並沒有很高。

鑑別度的題目 (左圖),在ICC圖裡量尺被拉長了,斜率看起來沒有很高(右圖)

图 3.4: 鑑別度的題目 (左圖),在ICC圖裡量尺被拉長了,斜率看起來沒有很高(右圖)

3.5 表示一組鑑別度較低的題目,由於題目特徵曲線圖裡的量尺壓縮了,因此它們看起來斜率較高。

鑑別度的題目 (左圖),在ICC圖裡量尺被壓縮了,斜率看起來比較高(右圖)

图 3.5: 鑑別度的題目 (左圖),在ICC圖裡量尺被壓縮了,斜率看起來比較高(右圖)

因此,如果你的資料符合 Rasch 模型,即題目的題目特徵曲線都平行,僅依靠這個資訊並不足以做出所有題目都具很高品質的結論。我們還需要確認變異數的值的大小以及題本的信度,僅靠視覺判斷題目特徵曲線並不能夠告訴我們該組題目是否能夠區分出高、低能力的學生。

理論上很清楚,Rasch 模型(也有學者稱之為單參數模型)具有很好的性質。可是在實際的應用上,題本中的題目很少有相同的鑑別度。因此並不容易決定該選擇什麼 IRT 模型。還好在很多應用上,我們選擇用Rasch模型或雙參數模型所得到的結果並不會有很大的差別。

3.7 回家作業

請用雙參數 IRT 模型繪製三個不同鑑別度的題目,並將它們的題目特徵曲線繪製在同一個圖表中。

References

Rasch, Georg. 1960. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen, Denmark: Danish Institute for Educational Research.