用R語言做數據分析——方差分析基本概論

R語言 焦慮症 心理 數據分析和挖掘 2017-06-08

在實際工作中,影響一件事的因素是很多的,我們總是希望通過各種試驗來觀察各種因素對試驗結果的影響。例如,不同的生產廠家、不同的原材料、不同的操作規程,以及不同的技術指標對產品的質量、性能都會有影響,然而、不同因素的影響大小不等。

方差分析是研究一種或多種因素的變化對試驗結果的觀測值是否有顯著影響,從而找出較優的試驗條件或生產條件的一種常用數理統計方法。

觀測值、因素、水平

我們在實驗中所考察到的數量指標如產量、性能等稱為觀測值,影響觀測值的條件稱為因素,因素的不同狀態稱為水平,一個因素可以採用多個水平。在一項實驗中,可以得到一系列不同的觀測值,引起觀測值不同的原因是多方面的,有的是處理方式不同或條件不同引起的,稱為因素效應(或處理效應、條件變異),有的是試驗過程中偶然因素的干擾或觀測誤差所導致的,稱作試驗誤差。方差分析的主要工作是將測量數據的總變異按照變異原因的不同分解為因素效應和試驗誤差,並對其作出數量分析,比較各種原因在總變異中所佔的重要程度,作為統計推斷的依據,由此確定進一步的工作方向。

實驗設計

在進行方差分析之前,我們首先需要設計實驗來觀察獲得數據集。根據觀測數是否相等,可劃分為均衡設計和非均衡設計,觀測數相等的設計稱為均衡設計,觀測數不等的設計稱為非均衡設計,方差分析主要通過F檢驗來進行效果評測。

例子:治療焦慮症通常有認知行為療法(CBT)和眼動脫敏再加工法(EMDR),現有10名焦慮症患志願者,隨機分配一半的人接受為期五週的CBT,另外一半接受為期五週的EMDR。治療結束時,要求每個患者都填寫狀態特質焦慮問卷(STAI),也就是一份焦慮度測量的自我評測報告。實驗設計如下:

用R語言做數據分析——方差分析基本概論

上述實驗設計中,因為僅有一個類別型變量,這種實驗設計稱為單因素方差分析(或者單因素組間方差分析)。若影響變量不止一個時,這種實驗設計稱為稱為多元方差分析。方差分析主要通過通過F檢驗來進行效果評測,若治療方法的F檢驗顯著,則說明五週後兩種治療方案的STAI得分均值不同。

如果我們只對CBT的效果感興趣,則需將10個患者放在CBT組中,然後再治療五週和六個月後分別評價療效。實驗設計如下:

用R語言做數據分析——方差分析基本概論

上述實驗中,時間是兩水平(五週、六個月)的組內因子,因為每個患者在所有水平下都進行了測量,因此這種設計稱為單因素組內方差分析;又由於每個受試者都不止一次被測量,也被稱作重複測量方差分析。當時間的F檢驗顯著時,說明患者的STAI得分均值在五週和六個月間發生了改變。

如果我們對治療方案差異和它們隨時間的改變都感興趣,則將兩個設計結合起來。隨機分配五個患者都CBT,另外五個到EMDR,在五週和六個月後分別評價他們的STAI結果,實驗設計如下:

用R語言做數據分析——方差分析基本概論

療法和時間都作為因子時,我們既可分析療法的影響(時間跨度上的平均)和時間的影響(療法類型跨度上的平均),又可分析療法和時間的交互影響。前兩個稱為主效應,交互部分稱為交互效應

當實驗設計包含兩個甚至更多的因子時,便是因素方差分析設計,若因子設計包含組內和組間因子,又稱作混合模型方差分析,上述的實驗設計就是典型的雙因素混合模型方差分析。

在這組實驗設計中,需要做三次F檢驗:療法因素一次、時間因素一次,兩者交互因素一次。若療法結果顯著,說明CBT和EMDR對焦慮症的治療效果不同;若時間結果顯著,說明焦慮度從五週到六月發生了變化;若兩者交互效應顯著,說明焦慮度從五週到六個月的改變程度在兩種療法間是不同的。

相關推薦

推薦中...