用R語言做數據分析——主成分和因子分析概論

機器學習 R語言科技數據分析和挖掘數據分析和挖掘 2017-08-01

信息過度複雜是多變量數據最大的挑戰之一。若數據集有100個變量，如何瞭解其中所有的交互關係呢？即是隻有20個變量，當試圖理解各個變量與其他變量的關係時，也需要考慮190對相互關係。主成分分析和探索性因子分析是兩種用來探索和簡化多變量複雜關係的常用方法，它們之間有聯繫也有區別。

主成分分析（PCA）是一種數據降維技巧，它能將大量相關變量轉化為一組很少的不相關變量，這些無關變量稱為主成分。例如，使用PCA可將10個相關（很可能冗餘）的環境變量轉化為5個無關的成分變量，並且儘可能地保留原始數據集的信息。

相對而言，探索性因子分析（EFA）是一系列用來發現一組變量的潛在結構的方法。它通過尋找一組更小的、潛在的或隱藏的結構來解釋已觀測到的、顯式的變量間的關係。例如、Harman74.cor包含了24個心理測驗的相互關係，受試對象為145個七年級或八年級的學生。假如使用EFA來探索該數據，結果表明276個測驗間的相互關係可用四個學生能力的潛在因子（語言能力、反應速度、推理能力和記憶能力）來進行解釋。

PCA與EFA模型間的區別如下圖所示，主成分（PC1和PC2）是觀測變量（X1和X5）的線性組合。形成線性組合的權重都是通過最大化各主成分所解釋的方差來獲得，同時還要保證各主成分之間不相關。

用R語言做數據分析——主成分和因子分析概論

相反、因子（F1和F2）被當做是觀測變量的結構基礎或“原因”，而不是它們的線性組合。代表觀測變量方差的誤差（e1到e5）無法用因子來解釋。圖中的圓圈表示因子和誤差無法直接觀測，但是可通過變量間的相互關係推導得到。在本例中，因子間帶曲線的箭頭表示它們之間有相關性。在EFA模型中，相關因子是常見的，但並不是必需的。

無論是PCA還是EFA，都需要大樣本來支撐穩定的結果，但多大樣本量才足夠，這也是一個複雜的問題。目前，數據分析師常使用經驗分則：“因子分析需要5~10倍變量數的樣本數。”研究表明，所需樣本量依賴於因子數目、與各因子相關聯的變量數，以及因子對變量方差的解釋程度。

R語言的基礎安裝包提供了PCA和EFA函數，分別為princomp()和factanal()。而psych包中提供了比基礎函數更為豐富的有用的相關函數，下圖列出了psych包中相關度最高的函數：

用R語言做數據分析——主成分和因子分析概論

PCA和EFA常見的操作步驟如下：

數據預處理。PCA和EFA都根據觀測變量間的相關性來推導結果。用戶可以輸入原始數據矩陣或者相關係數矩陣到principal()和fa()函數中。輸入初始數據，相關係數矩陣將會被自動計算，在計算之前請確保數據中沒有缺失值。
選擇因子模型。判斷是PCA（數據降維）還是EFA（發現潛在結構）更符合研究目標。如果選擇EFA方法，還需要選擇一種估計估計因子模型的方法（如最大似然估計）。
判斷要選擇的主成分/因子數目。
選擇主成分/因子。
旋轉主成分呢/因子。
解釋結果。
計算主成分或因子得分。

用R語言做數據分析——主成分和因子分析概論

相關推薦

'使用Python代替Excel做數據分析已成，抓緊學，趕上第一波熱潮'

"我是個只會用Excel的數據分析工作者。有一天，我和朋友約好晚上一起吃飯，離下班還有5分鐘，老闆突然Q我：老闆：你今天加個班我：好呀好呀老闆：我有幾個Excel,需要你把它們合成一張表我：好呀好呀老闆：給！你自己看著辦吧！我懷著忐忑的心情打開了一個神祕的壓縮包：912個C...

Python Excel 數據庫機器學習跳槽那些事兒軟件可視化技術工程師電腦鼠標人生第一份工作 2019-09-13

'用Excel做數據分析，簡單粗暴超實用，十分鐘就學會'

"最近有個朋友找到我，說是想要轉行做數據分析師，但是卻不知道在數據分析的求職環境怎麼樣？而且自己什麼工具都不會，python、R語言什麼的也都是淺嘗輒止，擔心自己一轉行就失業。這也是很多想要轉行數據分析的人的困惑，其實數據分析入門並不難，只要掌握了Excel數據分析的基礎，...

Excel 人生第一份工作分析師 Python R語言百度 2019-09-08

'怎麼用最簡單的方法，做出最炫酷的數據可視化圖表？'

"如果要問數據怎樣做才能顯得最裝逼，那麼答案一定只有一個：“數據可視化”！看上去也很炫酷對不對，其實上面的可視化圖表其實並不複雜，很多人推薦的Python、R語言、Tableau等專業數據分析工具幾乎都能很輕鬆的實現。但是！這只是對於專業的數據人或者精通這些專業工具的人來說...

可視化技術 Excel Python 玫瑰瀏覽器 R語言雷達地理 2019-09-07

'RevoScaleR 中函數rxDTree 擬合決策樹模型（R語言/ MLS)'

"RevoScaleR中的rxDTree函數使用基於二進制的遞歸分區算法來匹配基於樹的模型。得到的模型與推薦的R包rpart生成的模型相似。就像rpart一樣，rxDTree也支持分類樹和迴歸樹；差異由響應變量的性質決定：一個因子響應生成一個分類樹；數值響應生成迴歸樹。rx...

R語言算法手術兩百年大數據技術 2019-08-07

'用R語言讀取Excel、PDF和JSON文件，終於有人講明白了'

"導讀：本文將討論Excel、PDF等文件的讀取，以及相應函數的參數設置。作者：劉健鄔書豪如需轉載請聯繫華章科技下圖總結了主要程序包，希望讀者在日常練習和工作中遇到不同格式的文件時，能夠瞬間反應出讀取該格式所需的包及對應的函數。（限於篇幅，本文未包含圖中“平面文檔格式”這...

Excel JSON R語言大學大數據人生第一份工作 2019-08-01

'一文看懂用R語言讀取Excel、PDF和JSON文件（附代碼）'

Excel JSON R語言人生第一份工作微軟大數據大學 2019-07-30

'不到20行代碼，用Python做一個智能聊天機器人'

"伴隨著自然語言技術和機器學習技術的發展，越來越多的有意思的自然語言小項目呈現在大家的眼前，聊天機器人就是其中最典型的應用，今天小編就帶領大家用不到20行代碼，運用兩種方式搭建屬於自己的聊天機器人。01神器wxpy庫首先，小編先向大家介紹一下本次運用到的python庫，本次...

Python 機器人機器學習阿蘭·圖靈技術設計 2019-07-21

'自動化R語言單元測試提取'

"摘要本文探討了如何從客戶端代碼的執行跟蹤中提取目標軟件包的單元測試。我們的目標是減少創建測試套件所需的工作量，同時最大限度地減少單個測試的數量和大小，並最大限度地擴大覆蓋率。為了評估該方法的可行性，我們選擇了一個具有挑戰性的自動化測試提取的目標語言，即R語言，一種在數據科...

R語言軟件腳本語言程序員編程語言技術 2019-07-20

R語言繪圖：28個實用程序包

本文轉載自“ 阿虎定量筆記“，作者鄭連虎，轉載己獲授權。其他人轉載請聯繫原作者，點我跳轉原文。全文註釋# 示例參考幫助文檔# 我用Rstudio重現了所有...

R語言 RStudio 非洲 GU 2019-06-19

不到20行代碼，用Python做一個智能聊天機器人，Python語言如此好

伴隨著自然語言技術和機器學習技術的發展，越來越多的有意思的自然語言小項目呈現在大家的眼前，聊天機器人就是其中最典型的應用，今天小編就帶領大家用不到20行代...

Python 機器人機器學習阿蘭·圖靈 ?? 技術設計 2019-04-21

代碼詳解：用R語言構建ANN並將其可視化

神經網絡是一種模擬原始人類思維的計算設計。與人工神經網絡（ANN）相比，支持向量機首先將輸入數據概括為由核函數定義的高維特徵空間，並找到以最大餘量分配訓練...

R語言人工智能可視化技術 Origin 算法技術設計石油 2019-04-20

無監督學習簡介：瞭解主成分分析（PCA）和聚類方法

無監督學習是一組統計工具，用於只有一組特徵而沒有目標的情景。因此，我們無法進行預測，因為每個觀察都沒有相關的響應。我們感興趣的是找到一種有趣的方法來可視化...

可視化技術算法歐幾里得機器學習技術市場營銷 2019-04-04

用微信支付的朋友注意了！做這一件事，可以幫你提高支付安全

如今我們的支付使用較多的是支付寶或微信，這些都為我們的支付提供了便捷，但是有些事情你卻不得不注意。很多朋友的微信都綁定了銀行卡，手機一旦丟失，微信錢包裡...

移動互聯網微信支付寶科技 2018-11-30

公司市值超千億，比華為更捨得投入，每年用營收的31%做軟件研發

在很多公司都羨慕互聯網軟件公司升值快、估值高的同時，沒看到的是互聯網公司的研發投入更大。相比一個機械公司，初始的投入機械設備以後，就固定生產一定週期內不需...

華為軟件 SAP公司科技 2018-11-25

6步驟帶你瞭解樸素貝葉斯分類器（含Python和R語言代碼）

本文最初由Sunil Ray發表於2015年9月13日，作者於2017年9月進行了更新。假設你正在處理一個分類問題，你已經形成了一些假設，建立了一套特徵並...

Python 機器學習編程語言 R語言機器人網JQRcom 2017-10-14

數據分析、機器學習、人工智能必讀書目——《R語言實戰第二版》

數據分析、機器學習、人工智能必讀書目——《R語言實戰第二版》我們已經進入了全新的數據時代，大數據、雲計算、物聯網、機器學習、人工智能等等一系列技術紛至沓來...

機器學習 R語言數據挖掘大數據愛編程愛統計 2017-09-24

用CNN做機器翻譯？Facebook相關論文的PyTorch代碼發佈

李林編譯整理量子位出品 | 公眾號 QbitAI還記得Facebook那篇用CNN做機器翻譯的論文嗎？Convolutional Sequence t...

Facebook GitHub 機器學習 CNN 量子位 2017-09-20

藝術家用廢品做出機器人，有動作有語音，被放在車庫中當裝飾品

4圖

2017-09-13

R語言數據挖掘實踐——Rattle模型評估案例實戰

現在通過一個綜合實例，完整地講述模型的評估與選擇。數據介紹這個案例選擇的數據來源於Rattle程序包中關於審計的"audit.csv"數據集，在data選...

數據挖掘機器學習 R語言隨機森林數據分析和挖掘 2017-09-12

R語言數據挖掘實踐——神經網絡代碼實戰

下面我們開始運用R語言分析來源於UCI數據庫中的關於白酒品質研究的數據集進行算法演示，該數據集是關於白酒中的各項變量對白酒品質的影響情況。這裡將利用該數據...

機器學習 R語言 Wine 白酒數據分析和挖掘 2017-09-08

推薦中...