2009年1月30日 星期五

SPSS: one-way ANOVA 教學 張貼者: 苦情研究生 位於 下午 1:17 . 2009年1月18日 星期日

ANOVA (中文有人翻「方差分析」或「變異數分析」)是許多人作論文時會用到的,特別是作實驗時,有兩組或兩組以上作比較。所以要用ANOVA的時機,就是你有categorical variable,想要看不同組之間是不是存在著差異。比如說男性和女性在數學成績上是否有差異,或是不同種族在數學上是否有不同差異,這兩個例子都可以用ANOVA。

如果你不知道要用ANOVA還是Regression,可參考用哪種統計分析好?

今天先講one-way Anova。為了讓大家也可以實作,我就拿我們老師教統計課用的範例dataset。此dataset是從NELS 88 (National Education Longitudinal Study of 1988)修改而來的,可以在http://www.badongo.com/file/12942396 下載。

解壓縮密碼:newgenerationresearcher

下載、解壓縮之後,請開啟資料庫。在開始作之前,先確定一下資料的筆數是不是5141筆,最後一個欄位是不是PassedMath3。如果都沒有問題,就開始作one way ANOVA。那我們的研究問題是什麼呢?

研究問題:不同種族是否在數學成績上有差異?

根據這個問題,我們的dependent variable 是 Math 3,independent variable是Race。

Analyze--> Compare Means--> One-way ANOVA

1.png


上面的選Math 3,下面的選Race。設定完之後按OK。

3.png


跑出來結果像這樣:2.png

弄 這些一點都不難,問題是:要看什麼?第一個要看的是Between Groups對過去的Sig.,也就是下圖圈起來的地方。怎麼看呢?就是拿這個值與.05、.01和.001比較。如果比.05大,那表示此變數對結果沒 影著影響,拿我們的例子來說,就是種族對數學成績沒影響。下面的是.000,此值<.001,所以是有顯著影響的。

4.png

說半天,那要怎麼寫在文章裡呢?

5.png

要回報的就是F(4, 5135)=116.64, p<.001。

到這裡先想一想:這到底代表什麼?我們的問題是種族是否對數學成績有影響,現在結果出來,是有顯著影響的。那...是任何兩個種族之間都有顯著差異嗎?對不起,從上面的作法是看不出來的。ANOVA只會告訴你在你的類別變數中,是不是至少有兩組之間是有顯著差異的,但並不能看出是哪兩組,或是哪些組之間有差異。

如果想要知道是哪一組與其它組不同,就要用事後檢定(post hoc)。至於用哪一種,有時候要看領域,或是問問你的指導教授。通常不外乎Bonferroni、Tukey或Scheffe。

怎麼做呢?剛我們在選變數的時候,右邊有一個Post Hoc。

6.png

點了之後你可以先試試用Boferroni。

7.png

出來之後結果會像下圖,同樣是先去看Sig的數值,這我就不多說了。

8.png

這裡範例所用的one-way ANOVA屬於無重複試驗的,也就是我只測一次而已,而不是同一個測量測三次(比如說為求精準,可能會血壓測量三次)。

最後要說的,在SPSS裡面,如果計算ANOVA的方式並不是只有一種。下次會介紹如何用GLM來作同樣的工作。

SPSS: 取出符合條件的群組(select cases) 張貼者: 苦情研究生 位於 上午 3:48 . 2009年1月20日 星期二 標籤: 統計分析

在我們的dataset裡面,race有五個族群,由1-5是Asian/Pacific Islander, Hispanic, Black not Hispanic, White not Hispanic, American Indian/Alaskan。如果我們只想看2(Hispanic)、4(White not Hispanic)和5(American Indian/Alaskan)時,要怎麼做呢?

在STATA很簡單,在你要跑到運算式後面,加上if來判斷就行了。在SPSS也不難,主要是用到select cases這個功能。先看一下資料長下面這樣:

1.png

執行Data--Select cases

2.png

會跳出下面的視窗,先選race,然後選if

3.png

你可以輸入紅色框框內容。 |表示or,這是最重要的一步。

4.png

如果回頭看你的data,你會發現race是1、3的,都被畫掉了。這表示我們做的沒錯。

5.png

如果不放心的話,你可以跑frequency,看看數值是否跟下面一樣。6.png

在SPSS中,如果要在一個類別變數裡,找出特定的群組,除了用select case以外,也可以手動用recode來做,但步驟比較多,而且也比較容易出錯。

用哪種統計分析方式好?(卡方,Anova,T-test, or regression?)

用哪種統計分析方式好?(卡方,Anova,T-test, or regression?)

. 2008年8月11日 星期一
  • Agregar a Technorati
  • Agregar a Del.icio.us
  • Agregar a DiggIt!
  • Agregar a Yahoo!
  • Agregar a Google
  • Agregar a Meneame
  • Agregar a Furl
  • Agregar a Reddit
  • Agregar a Magnolia
  • Agregar a Blinklist
  • Agregar a Blogmarks


what_methods

許 多人(包括我自己)在學統計時,總是被這一堆術語搞得頭昏腦脹。每一個分析都聽得清清楚楚,考試也都可以拿高分,但等到自己面對一大堆資料要動手分析時, 卻不知道該用哪一種方法。如果你不知道什麼時候要用卡分檢定、T-test、Anova或Regression,但每一項的計算和原理你都清楚,那請你接 著往下看,希望本文對你有幫助。
首先要談的是T-test。T檢定主要是檢驗兩組之間是否有差異,所以條件是有兩組只能有兩組。組別是類別變數(categorical variable),像是性別、種族、國籍。如果是連續變數,也可以設一個標準,多少以上是好的,以下是差的,以此來產生類別變數。如果超過兩組,必須用Anova來分析。另外,常犯的錯就是把前、後測是否有顯著差異用T-test來檢定。即使有兩組,前、後測也不是用T-test來檢定的,更別說有人「假裝」把前測當一組,後測當一組,拿來做T檢定。


One-way Anova(單因子變異數分析)是只有一個類別變數,檢驗此類別變數與其它連續變數(continuous variable)和結果的關係。比方說如果你想看性別、IQ對數學成績的影響,性別就是類別變數,IQ是連續變數,數學成績是結果變數(outcome variable)。


Two-way Anova(雙因子變異數分析)是有兩個以上的類別變數。比如說性別、種族與IQ對數學成績的影響,性別和種族就是類別變數。
問題來了,什麼時候用Anova,什麼時候用Regression呢?這兩者有何不同?其實Anova就是(Linear) Regression,不同點就在Anova裡面有類別變數而已。換言之,Linear regression裡的變數均為連續變數,如:年齡、IQ、成績、體重等,沒有類別變數。只要懂了這個,我覺得初、中級的統計,初、中級統計就沒什麼問題了。


最後說說卡方檢定(Chi-square)。先想想卡方檢定測的是什麼?對,是比例。那你可能會有問題,T-test與Anova比的是什麼呢?當然不是比例,而是平均的差異。 卡方測的是一件事情,在各組發生的比例是否相同。在繼續說之前,要先記得,卡方檢定的變數不是連續變數,也不是類別變數,而是名目變數(nominal variables),也就是「是與否」、「男與女」這種變數。所以常見的問題就是:男女和素食行為,或是男女與是否有大學學歷等。


如果你已經弄糊塗了,可以參看下表

what_methods_1.png

what_methods_2.jpg

what_methods_3.jpg

最後要說一點,我不是統計系的,寫這個也只是說出自己的理解而已。如果有不對的地方,還歡迎網友指正。

3 意見:

Roy 提到...

簡單的說,卡方檢定的適用範圍最廣,尤其是自變數跟依變數尺度、類別不同時,只要有列聯表、cross table就可以用,所以有卡方一致性檢定、獨立性檢定等,需注意的是如何找出cell和cell之間的關聯需要更進一步的判斷,不單只看卡方值或顯著性;

t-test和Anova可以看成是同一組的,都是檢定依變數在自變數上的表現 差異

迴歸則是在檢定 影響性 ,這是最被研究者詬病的,因為有可能GIGO,變數的方向性是研究者賦予的。

苦情研究生 提到...

謝謝你留言補充,不過我不完全同意。統計沒什麼「適用範圍最廣」,主要是看你要測什麼,有什麼,對吧?如果你只有一個categorical variable,但多個continuous variables,也不能用卡方,是吧?
其它部分你說得比我好。「差異」就是圖表裡的comparision of means,平均之間的不同,就是差異。
「影響性」是說association,是看自變數和依變數之間的關係。
再次謝謝你的補充!

Roy 提到...

您說的沒錯,我忘了考量會碰到continuous variables的狀況,因為身邊碰到的調查工作,要碰到continuous variables的情況還真不多 XD

用proportion,mean,association來做區別到也是個很好的判斷方式,再次感謝您的分享~