用哪種統計分析方式好?(卡方,Anova,T-test, or regression?)
許 多人(包括我自己)在學統計時,總是被這一堆術語搞得頭昏腦脹。每一個分析都聽得清清楚楚,考試也都可以拿高分,但等到自己面對一大堆資料要動手分析時, 卻不知道該用哪一種方法。如果你不知道什麼時候要用卡分檢定、T-test、Anova或Regression,但每一項的計算和原理你都清楚,那請你接 著往下看,希望本文對你有幫助。
首先要談的是T-test。T檢定主要是檢驗兩組之間是否有差異,所以條件是有兩組也只能有兩組。組別是類別變數(categorical variable),像是性別、種族、國籍。如果是連續變數,也可以設一個標準,多少以上是好的,以下是差的,以此來產生類別變數。如果超過兩組,必須用Anova來分析。另外,常犯的錯就是把前、後測是否有顯著差異用T-test來檢定。即使有兩組,前、後測也不是用T-test來檢定的,更別說有人「假裝」把前測當一組,後測當一組,拿來做T檢定。
One-way Anova(單因子變異數分析)是只有一個類別變數,檢驗此類別變數與其它連續變數(continuous variable)和結果的關係。比方說如果你想看性別、IQ對數學成績的影響,性別就是類別變數,IQ是連續變數,數學成績是結果變數(outcome variable)。
Two-way Anova(雙因子變異數分析)是有兩個以上的類別變數。比如說性別、種族與IQ對數學成績的影響,性別和種族就是類別變數。
問題來了,什麼時候用Anova,什麼時候用Regression呢?這兩者有何不同?其實Anova就是(Linear) Regression,不同點就在Anova裡面有類別變數而已。換言之,Linear regression裡的變數均為連續變數,如:年齡、IQ、成績、體重等,沒有類別變數。只要懂了這個,我覺得初、中級的統計,初、中級統計就沒什麼問題了。
最後說說卡方檢定(Chi-square)。先想想卡方檢定測的是什麼?對,是比例。那你可能會有問題,T-test與Anova比的是什麼呢?當然不是比例,而是平均的差異。 卡方測的是一件事情,在各組發生的比例是否相同。在繼續說之前,要先記得,卡方檢定的變數不是連續變數,也不是類別變數,而是名目變數(nominal variables),也就是「是與否」、「男與女」這種變數。所以常見的問題就是:男女和素食行為,或是男女與是否有大學學歷等。
如果你已經弄糊塗了,可以參看下表
最後要說一點,我不是統計系的,寫這個也只是說出自己的理解而已。如果有不對的地方,還歡迎網友指正。











簡單的說,卡方檢定的適用範圍最廣,尤其是自變數跟依變數尺度、類別不同時,只要有列聯表、cross table就可以用,所以有卡方一致性檢定、獨立性檢定等,需注意的是如何找出cell和cell之間的關聯需要更進一步的判斷,不單只看卡方值或顯著性;
t-test和Anova可以看成是同一組的,都是檢定依變數在自變數上的表現 差異 ;
迴歸則是在檢定 影響性 ,這是最被研究者詬病的,因為有可能GIGO,變數的方向性是研究者賦予的。
謝謝你留言補充,不過我不完全同意。統計沒什麼「適用範圍最廣」,主要是看你要測什麼,有什麼,對吧?如果你只有一個categorical variable,但多個continuous variables,也不能用卡方,是吧?
其它部分你說得比我好。「差異」就是圖表裡的comparision of means,平均之間的不同,就是差異。
「影響性」是說association,是看自變數和依變數之間的關係。
再次謝謝你的補充!
您說的沒錯,我忘了考量會碰到continuous variables的狀況,因為身邊碰到的調查工作,要碰到continuous variables的情況還真不多 XD
用proportion,mean,association來做區別到也是個很好的判斷方式,再次感謝您的分享~