一個測驗是否標準化了,須在下面幾個方面受到考驗:
1.取樣(sampling)心理測驗是衡量某一心理品質(zhì)的標尺,這個標尺產(chǎn)生于樣本。人們的心理活動千差萬別,所以取樣時,必須照顧取樣的代表性。根據(jù)樣本結(jié)果來使測驗標準化,這個樣本便是測驗的標準化樣本。在選擇測驗時除了了解所取樣本的代表性外,還要注意這一樣本與受試的情況是否相應(yīng)。一般來說,要考慮樣本的年齡范圍、性別、地區(qū)、民族、教育程度、職業(yè)等基本特征。如果是臨床量表,還應(yīng)有疾病診斷、病程及治療等背景。受試者的情況在這些方面與樣本相應(yīng),所測結(jié)果與樣本才有可比性。在實際工作中,不是所有時候都有一個很適合的工具供使用,不得已也會使用不很相應(yīng)的量表。這時,在解釋中須加以說明,并持謹慎態(tài)度,否則很易造成錯誤。
2.常模(norm) 常模是一種可供比較的普通形式。通常有如下幾種:
(1)均數(shù):是常模的一種普通形式。某一受試所測成績(粗分,或稱原始分)與標準化樣本的平均數(shù)相比較時,才能確定其成績的高低。
(2)標準分:均數(shù)所說明的問題還是有限的。只看均數(shù),不注意分散情況,所得受試者的信息非常有限。如用標準分作常模,便可提供更多的信息。標準分能說明受試者的測驗成績在標準化樣本的成績分布圖上居何位置。標準分(Z)=受試者成績(X)與樣本均數(shù)(x)之差(即X-x)除以樣本成績標準差(SD)。簡化成Z=(X-x)/SD。這樣一來,不僅說明受試者的成績與樣本比較在其上或其下,而且還說明相差幾個標準差。
許多量表采用這種常;蛴纱搜芑鰜淼某D。例如:在Wechsler氏量表中,離差智高=100+15(X-x )/SD便是這一種。離差智商與標準分常模的不同之處在于:一是標準分均數(shù)為0。而離差智商均數(shù)為100。即Z=X在標準分時為0,在離差智商時為100;二是標準分的SD值隨樣本而定,而離差智商中是令標準差為15(Stanford Binet 為16)。
(3)T分:T分常模是標準分衍化出來的另quanxiangyun.cn/wszg/一種常用常模。例如MMPI便采用此種常模。它與離差智商的不同之處,是所設(shè)的均數(shù)值及標準差不同。T分計算的公式:
T=50+10(X-x)/SD
(4)由標準分衍化而來的其他形式的常模;標準20和標準10即是屬于這一類,都是改變均數(shù)及標準差值而得。其計算公式如下;
標準 20=10+3(X-x)/SD
標準10=5+1.5(X-x)/SD
在韋氏量表中,有粗分、量表分以及離差智商諸量數(shù)。其中量表分的計算方法即屬此處的標準20計算法。
(5)百分位(percentile rank,PR):這是另一類常用常模,比標準quanxiangyun.cn/kuaiji/分應(yīng)用得早,且更通用。它的優(yōu)點是不需要統(tǒng)計學的要領(lǐng)便可理解。習慣上將成績差的排列在下,好的在上,計算出樣本分數(shù)的各百分位范圍。將受試者的成績與常模相比較。如相當百分位50(P50),說明此受試者的成績相當標準化樣本的第50位。也即是說,樣本中有50%的人數(shù),其成績在他之下(其中最好的至多和他一樣),另外50%人數(shù)的成績比他的好。如在P25,說明樣本中25%的成績在他之下(或至多和他一樣),另有75%人數(shù)的成績比他的好。以此類推。
(6)劃界分(cut off score):在篩選測驗中常用此常模。如教育上用100分制時,以60分為及格分,此即劃界分。而入學考試時的劃界分因考生成績和錄取人數(shù)而異。在臨床神經(jīng)心理測驗中,將正常人與腦病患者的測驗成績比較,設(shè)立劃界分,用這個分數(shù)劃分有無腦損害。如果某測驗對檢查某種腦損害很敏感,就說明設(shè)立的劃界分很有效。病人被劃入假陰性的人數(shù)就很少甚至沒有,正常人被劃為假陽性的也很少或沒有。如果不敏感,則假陽性或假陰性的機會均會增加。
(7)比率 (或商數(shù)):這一類常模也較常用。例如:在離差智商計算方法之前,便使用比率智商。其計算方法:IQ=MA/CA×100,是將MA(心理年齡)與CA(實際年齡)相等的設(shè)作100,以使IQ成整數(shù)。H.R.B.中的損傷指數(shù)也是比率常模。損傷指數(shù)=劃入有損的測驗數(shù)/受測的測驗數(shù)(圖12-1)。
圖12-1 不同測驗分與Z分和正態(tài)分布的關(guān)系
以上是通用常模形式,此外還有各種性質(zhì)的常模。如年齡常模(按年齡分組建立的)、性別、區(qū)域和各種疾病診斷的常模。從可比性看,常模越特異越有效。從適應(yīng)性講,則以通常模使用方便。例如:以智力測驗為例,全國常模運用的范圍廣,而區(qū)域常模應(yīng)用的地區(qū)則有限。但后者比前者更精確。有的常模雖系區(qū)域性,但因該區(qū)域有代表性,也可用于相似地區(qū)。
3.信度(reliability) 心理測驗的信度是指同一受試者在不同時間用同一測驗(或用另一套相等的測驗)重復(fù)測驗,所得結(jié)果的一致性程度。信度用系數(shù)(coefficient)來表示。一般說,系數(shù)越大,說明一致性高,測得的分數(shù)可靠;反之則相反。信度的高低與測驗性質(zhì)有關(guān)。通常,能力測驗的信度(要求0.80以上)高,人格測驗的信度(要求0.70以上)低。凡標準化的測驗手冊,都需要說明本測驗用各種方法所測得的信度?简炐哦韧ǔS腥缦路椒ǎ
(1)重測信度:同一組受試在兩次不同時間作同一套測驗所得結(jié)果的相關(guān)性檢驗。
(2)正副本相關(guān):有的測驗同時編制了平行的正副本,將同一組受試的兩套測驗結(jié)果進行相關(guān)性檢驗。
(3)分半相關(guān):將一套測驗的各項目(要求按難度為序)按奇、偶數(shù)號分成兩半,對所測結(jié)果進行相關(guān)性檢驗。
其它尚有因素信度、測量標準誤等,此處從略。
4.效度(Validity) 所謂效度即有效性,指此測驗測查到所要測查的沒有?測查到何種程度?如一個智力測驗,若測驗結(jié)果所表明的確實是受試的智力,而且量準了智力水平,那么這一智力測驗的效度好;反之則不好。效度檢查,也同信度檢查一樣,有多種方法,并有各種名稱,如內(nèi)容效度、預(yù)測效度、因素效度、內(nèi)部效度等。美國心理協(xié)會在《心理測驗和診斷技術(shù)介紹》,簡稱《APA》(1954)及《教育和心理測驗的標準與手冊》(1966)中將它們分為三類。即校標(criterion)效度、內(nèi)容(content)效度和結(jié)構(gòu)(construct)效度三類,以后廣泛沿用。
(1)校標效度:即將測驗結(jié)果與某一標準行為進行相關(guān)檢查。如智力測驗與學習成績,診斷測驗與臨床診斷進行相關(guān)檢查等均屬之。
(2)內(nèi)容效度:指測驗映所測量內(nèi)容的程度。如算術(shù)成就測驗應(yīng)反映受試者運算能力的程度。測驗與之相關(guān)的標準,是老師的評定,日常生活或工作中所表現(xiàn)的能力等。
(3)結(jié)構(gòu)效度:反映編制此測驗所依據(jù)理論的程度。如編制一個智力測驗,必定依據(jù)有關(guān)智力的理論。該測驗所反映此智力的程度,可用結(jié)構(gòu)效度來檢驗。
5.方法的標準化 施測方法、記分方法、標準結(jié)果的換算法等都要按一定的規(guī)定進行,方符合標準測驗的條件。