用R語言做數據分析——t檢驗的功效分析

R語言另類搖滾科普科學數據分析和挖掘 2017-06-23

用pwr包做功效分析

R語言中的pwr包可以實現很好的功效分析，包中包含了一系列非常重要的函數。對於每個函數，用戶可以設定四個量（樣本大小、顯著性水平、功效和效應值）中的三個量，第四個量將由軟件計算出來。

用R語言做數據分析——t檢驗的功效分析

四個量中，效應值是最難規定的，計算效應值通常需要一些相關估計的經驗和對過去研究知識的理解。但是如果在一個特定的研究中，你對需要的效應值一無所知，又該怎麼辦呢？接下來將介紹pwr包在常見統計檢驗（t檢驗、方差分析、相關性、線性模型、比例檢驗、卡方檢驗）中的應用。在調用以上函數時，請確保已經安裝並載入pwr包。

t檢驗的功效分析

對於t檢驗，pwr.t.test()函數提供了許多有用的功效分析選項，格式為：

pwr.t.test(n=, d=, sig.level=, power=, alternative=)

其中，

1、n為樣本大小；

2、d為效應值，即標準化的均值之差；

用R語言做數據分析——t檢驗的功效分析

3、sig.level表示顯著性水平（默認為0.05）；

4、power為功效水平；

5、type表示檢驗類型：雙樣本t檢驗（two.sample）、單樣本t檢驗（one.sample）或相依樣本t檢驗（paired）。默認為雙樣本t檢驗。

6、alternative表示統計檢驗時雙側檢驗（two.sided）還是單側檢驗（less或greater）。默認為雙側檢驗。

例子：我們想評價使用手機對駕駛員反應時間的影響，零為假設H0：u1-u2=0，u1是駕駛員使用手機時的反應時間均值，u2是駕駛員不使用手機時的反應時間均值。假設我們拒絕該零假設，備擇假設就是H1：u1-u2 != 0，即兩種條件下反應時間的均值不相等。現挑選一個由不同個體構成的樣本，將他們隨機分配到任意一種情況下，參與者邊打手機，邊在一個模擬器中應對一系列駕駛挑戰；第二種情況，參與者在一個模擬器中完成一系列相同的駕駛挑戰，但不打手機。然後評估每個個體的總體反應時間。

假定將使用雙尾獨立樣本t檢驗來比較兩種情況下駕駛員的反應時間均值。如果根據過去的經驗知道反應時間有1.25s的標準偏差，並認定反應時間1s的差值是巨大的差異，那麼在這個研究中，可設定要檢測的效應值為d=1/1.25=0.8或者更大。另外，如果差異存在，我們希望有90%的把握檢測到它，由於隨機變異性的存在，我們也希望有95%的把握不會誤報差異顯著。這時，對於該研究需要多少受試者呢？

> library(pwr)

> pwr.t.test(d=.8, sig.level = .05, power = .9, type = "two.sample", alternative = "two.side")

Two-sample t test power calculation

n = 33.82555

d = 0.8

sig.level = 0.05

power = 0.9

alternative = two.sided

NOTE: n is number in *each* group

結果表明，每組中需要34個受試者（總共68人），這樣才能保證有90%的把握檢測到0.8的效應值，並且最多5%的可能性會誤報差異存在。

現在變化一下問題。假定在比較這兩種情況時，我們想檢測到總體均值0.5個標準誤差的差異，並且將誤報差異的機率限制在1%內。此外，受試者只有40人，那麼在該研究中能檢測到這麼大總體均值差異的概率是多少呢？

假定每種情況下受試者數目相同，可以進行如下操作：

> pwr.t.test(n=20, d=.5, sig.level = .01, type = "two.sample", alternative = "two.side")

Two-sample t test power calculation

n = 20

d = 0.5

sig.level = 0.01

power = 0.1439551

alternative = two.sided

NOTE: n is number in *each* group

結果表明：在0.01的先驗顯著性水平下，每組20個受試者，因變量的標準差為1.25s，有低於14%的可能性斷言差值為0.625s或者不顯著（d=0.5=0.625/1.25）。換句話說，我們有86%的可能錯過我們要尋找的效應值。因此，可能需要慎重考慮要投入到該研究中的時間和經歷。

上面的例子都是假定兩組樣本大小相等，如果兩組中樣本大小不同，可用函數：

pwr.t2n.test(n1=, n2=, d=, sig.level=, power=, alternative=)

其中n1和n2是兩組樣本大小，其他參數含義與pwr.t.test()相同，可以嘗試改變pwr.t2n.test()函數的參數值，看看輸出的效應值如何變化。

相關推薦

'用Excel做數據分析，簡單粗暴超實用，十分鐘就學會'

"最近有個朋友找到我，說是想要轉行做數據分析師，但是卻不知道在數據分析的求職環境怎麼樣？而且自己什麼工具都不會，python、R語言什麼的也都是淺嘗輒止，擔心自己一轉行就失業。這也是很多想要轉行數據分析的人的困惑，其實數據分析入門並不難，只要掌握了Excel數據分析的基礎，...

Excel 人生第一份工作分析師 Python R語言百度 2019-09-08

'怎麼用最簡單的方法，做出最炫酷的數據可視化圖表？'

"如果要問數據怎樣做才能顯得最裝逼，那麼答案一定只有一個：“數據可視化”！看上去也很炫酷對不對，其實上面的可視化圖表其實並不複雜，很多人推薦的Python、R語言、Tableau等專業數據分析工具幾乎都能很輕鬆的實現。但是！這只是對於專業的數據人或者精通這些專業工具的人來說...

可視化技術 Excel Python 玫瑰瀏覽器 R語言雷達地理 2019-09-07

'RevoScaleR 中函數rxDTree 擬合決策樹模型（R語言/ MLS)'

"RevoScaleR中的rxDTree函數使用基於二進制的遞歸分區算法來匹配基於樹的模型。得到的模型與推薦的R包rpart生成的模型相似。就像rpart一樣，rxDTree也支持分類樹和迴歸樹；差異由響應變量的性質決定：一個因子響應生成一個分類樹；數值響應生成迴歸樹。rx...

R語言算法手術兩百年大數據技術 2019-08-07

'用R語言讀取Excel、PDF和JSON文件，終於有人講明白了'

"導讀：本文將討論Excel、PDF等文件的讀取，以及相應函數的參數設置。作者：劉健鄔書豪如需轉載請聯繫華章科技下圖總結了主要程序包，希望讀者在日常練習和工作中遇到不同格式的文件時，能夠瞬間反應出讀取該格式所需的包及對應的函數。（限於篇幅，本文未包含圖中“平面文檔格式”這...

Excel JSON R語言大學大數據人生第一份工作 2019-08-01

'一文看懂用R語言讀取Excel、PDF和JSON文件（附代碼）'

Excel JSON R語言人生第一份工作微軟大數據大學 2019-07-30

'自動化R語言單元測試提取'

"摘要本文探討了如何從客戶端代碼的執行跟蹤中提取目標軟件包的單元測試。我們的目標是減少創建測試套件所需的工作量，同時最大限度地減少單個測試的數量和大小，並最大限度地擴大覆蓋率。為了評估該方法的可行性，我們選擇了一個具有挑戰性的自動化測試提取的目標語言，即R語言，一種在數據科...

R語言軟件腳本語言程序員編程語言技術 2019-07-20

R語言繪圖：28個實用程序包

本文轉載自“ 阿虎定量筆記“，作者鄭連虎，轉載己獲授權。其他人轉載請聯繫原作者，點我跳轉原文。全文註釋# 示例參考幫助文檔# 我用Rstudio重現了所有...

R語言 RStudio 非洲 GU 2019-06-19

代碼詳解：用R語言構建ANN並將其可視化

神經網絡是一種模擬原始人類思維的計算設計。與人工神經網絡（ANN）相比，支持向量機首先將輸入數據概括為由核函數定義的高維特徵空間，並找到以最大餘量分配訓練...

R語言人工智能可視化技術 Origin 算法技術設計石油 2019-04-20

饅頭立功了！中國科學家用麵粉做氫燃料電池的催化劑

俄羅斯人民友誼大學（RUDN）中由4名中國人蔘與的技術團隊開發了一種基於中國麵粉和水獲得多孔碳材料的新方法。該材料樣品在氫氣生產過程中表現出較高的電催化活...

化學酵母科普科學 2018-11-30

用這種蟲子做魚餌，釣起大鯉魚困難指數竟為0

相信大家都釣過，用的魚餌也是千奇萬種，雖然也是具有很大的成功力，但是面對那麼多的魚兒的不聽話，有的人用了各種的昆蟲去做實驗。最終用一種很罕見的昆蟲來來釣魚...

釣魚鯉魚戶外運動科學農村老林 2017-11-07

用一根市電火線可以點亮照明燈具嗎？各位專家來分析分析！

照明電路里的兩根電線，一根叫火線，另一根則叫零線。火線和零線的區別在於它們對地的電壓不同：火線對地電壓為220V；零線的對地的電壓等於零（它本身跟大地相連...

科學電力工程技術 2017-11-01

鑄鐵鍋黑胡椒蝦｜那麼多種類的蝦不能只用一種方法做

7圖

2017-10-31

我的世界暮色森林傳送門怎麼做有什麼用

我的世界暮色森林傳送門怎麼做?有什麼用?我的世界暮色森林模組是一個非常好玩的我的世界模組，模組中新增了很多怪物和物品，而且還增加了一個全新的暮色森林世界，...

科學遊戲狗 2017-10-25

6步驟帶你瞭解樸素貝葉斯分類器（含Python和R語言代碼）

本文最初由Sunil Ray發表於2015年9月13日，作者於2017年9月進行了更新。假設你正在處理一個分類問題，你已經形成了一些假設，建立了一套特徵並...

Python 機器學習編程語言 R語言機器人網JQRcom 2017-10-14

數據分析、機器學習、人工智能必讀書目——《R語言實戰第二版》

數據分析、機器學習、人工智能必讀書目——《R語言實戰第二版》我們已經進入了全新的數據時代，大數據、雲計算、物聯網、機器學習、人工智能等等一系列技術紛至沓來...

機器學習 R語言數據挖掘大數據愛編程愛統計 2017-09-24

呼吸困難者做血氣分析，檢測結果有誤差，是“誰”在搗鬼？

臨床上，動脈血氣分析是對心源性休克、急性左側心力衰竭、肺氣腫、呼吸衰竭等危重症患者的重要實驗室檢測手段之一。按理說，只是抽個血檢測下，結果過半患者的檢測結...

世衛組織肺氣腫科普健康丁香園醫生 2017-09-20

古代的“春藥”，其實是用這種小蟲子做的

4圖

2017-09-14

R語言數據挖掘實踐——Rattle模型評估案例實戰

現在通過一個綜合實例，完整地講述模型的評估與選擇。數據介紹這個案例選擇的數據來源於Rattle程序包中關於審計的"audit.csv"數據集，在data選...

數據挖掘機器學習 R語言隨機森林數據分析和挖掘 2017-09-12

R語言數據挖掘實踐——神經網絡代碼實戰

下面我們開始運用R語言分析來源於UCI數據庫中的關於白酒品質研究的數據集進行算法演示，該數據集是關於白酒中的各項變量對白酒品質的影響情況。這裡將利用該數據...

機器學習 R語言 Wine 白酒數據分析和挖掘 2017-09-08

R語言數據挖掘實踐——用R語言實現神經網絡

神經網絡概述人工神經網絡是一種應用類似於大腦神經突觸連接的結構進行信息處理的數學模型。在工程學與學術界也常將其直接簡稱為神經網絡或類神經網絡。神經網絡是一...

機器學習 R語言人工智能數學數據分析和挖掘 2017-09-07

推薦中...