數據分析、機器學習、人工智能必讀書目——《R語言實戰第二版》
我們已經進入了全新的數據時代,大數據、雲計算、物聯網、機器學習、人工智能等等一系列技術紛至沓來,數據的管理和應用已經滲透到每一個行業和業務領域,成為當今以及未來商業運作的基礎資產。可以說,只有掌握數據並善於運用數據的人,才會在競爭日益激烈的環境中尋得先機。 那麼我們該怎麼樣學習大數據分析、機器學習以及人工智能?作者認為,學習大數據、機器學習和人工智能,所需的知識分為五個層次,一是數學知識;二是統計學知識;三是算法知識;四是工具知識;五是哲學思想知識。所謂工具知識,就是我們需要藉助計算機軟件來完成相關的分析和運算,目前大數據和機器學習領域熱門的語言就是 R 和 Python。我們會分別介紹這五個層次所需要看的書,希望對大家有用。
《R語言實戰第二版》
作者:卡巴科弗
譯者: 高濤 / 肖楠 / 陳鋼
頁數: 459
出版:人民郵電出版社 2016年版
簡要評價:
我同時使用 Python 和 R,個人的感覺,雖然 Python 勢頭很凶猛,但與 R 的深厚積累相比還有差距。尤其是 R 的向量化計算方式,比 Python 方便很多。當然這只是個人喜好,不同意的別介意哦。這本書是我學習R語言的入門書,我非常喜歡。
我個人感覺,這本書好就好在不是以 R 語言的語法為脈絡,而是以實際統計分析需求為脈絡,相當於將統計學各種計算用 R 語言表達出來,因此這本書適合有一定統計學基礎的看。書籍本身沒有太多介紹R軟件的原理以及R語言本身的複雜特性,而是從實用的統計研究角度分析R在數據處理,模型構建,以及圖形操作上的由淺入深的應用。 如果你想學R的統計應用,這本書很實在,而且命令豐富; 如果你是著眼於R的編程,那麼這本書還不是太全面。
主要內容
本書從解決實際問題入手,儘量跳脫統計學的理論闡述來討論R語言及其應用,講解清晰透澈,極具實用性。作者不僅高度概括了R語言的強大功能,展示了各種實用的統計示例,而且對於難以用傳統方法分析的凌亂、不完整和非正態的數據也給出了完備的處理方法。第2版新增6章內容,涵蓋時間序列、聚類分析、分類、高級編程、創建包和創建動態報告等,並分別詳細介紹瞭如何使用ggplot2和lattice進行高級繪圖。通讀本書,你將全面掌握使用R語言進行數據分析、數據挖掘的技巧,領略大量探索和展示數據的圖形功能,並學會如何撰寫動態報告,從而更加高效地進行分析與溝通。
想要成為備受高科技企業追捧的數據分析師嗎?想要科學分析數據並正確決策嗎?不妨從本書開始,挑戰大數據,用R開始炫酷地統計與分析數據吧!
書籍目錄
第一部分 入門
第1章 R語言介紹
1.1 為何要使用R
1.2 R的獲取和安裝
1.3 R的使用
1.4 包
1.5 批處理
1.6 將輸出用為輸入:結果的重用
1.7 處理大數據集
1.8 示例實踐
1.9 小結
第2章 創建數據集
2.1 數據集的概念
2.2 數據結構
2.3 數據的輸入
2.4 數據集的標註
2.5 處理數據對象的實用函數
2.6 小結
第3章 圖形初階
3.1 使用圖形
3.2 一個簡單的例子
3.3 圖形參數
3.4 添加文本、自定義座標軸和圖例
3.5 圖形的組合
3.6 小結
第4章 基本數據管理
4.1 一個示例
4.2 創建新變量
4.3 變量的重編碼
4.4 變量的重命名
4.5 缺失值
4.6 日期值
4.7 類型轉換
4.8 數據排序
4.9 數據集的合併
4.10 數據集取子集
4.11 使用SQL語句操作數據框
4.12 小結
第5章 高級數據管理
5.1 一個數據處理難題
5.2 數值和字符處理函數
5.3 數據處理難題的一套解決方案
5.4 控制流
5.5 用戶自編函數
5.6 整合與重構
5.7 小結
第二部分 基本方法
第6章 基本圖形
6.1 條形圖
6.2 餅圖
6.3 直方圖
6.4 核密度圖
6.5 箱線圖
6.6 點圖
6.7 小結
第7章 基本統計分析
7.1 描述性統計分析
7.2 頻數表和列聯表
7.3 相關
7.4 t 檢驗
7.5 組間差異的非參數檢驗
7.6 組間差異的可視化
7.7 小結
第三部分 中級方法
第8章 迴歸
8.1 迴歸的多面性
8.2 OLS迴歸
8.3 迴歸診斷
8.4 異常觀測值
8.5 改進措施
8.6 選擇“最佳”的迴歸模型
8.7 深層次分析
8.8 小結
第9章 方差分析
9.1 術語速成
9.2 ANOVA模型擬合
9.3 單因素方差分析
9.4 單因素協方差分析
9.5 雙因素方差分析
9.6 重複測量方差分析
9.7 多元方差分析
9.8 用迴歸來做ANOVA
9.9 小結
第10章 功效分析
10.1 假設檢驗速覽
10.2 用pwr包做功效分析
10.3 繪製功效分析圖形
10.4 其他軟件包
10.5 小結
第11章 中級繪圖
11.1 散點圖
11.2 折線圖
11.3 相關圖
11.4 馬賽克圖
11.5 小結
第12章 重抽樣與自助法 12.1 置換檢驗 12.2 用coin包做置換檢驗 12.3 lmPerm包的置換檢驗 12.4 置換檢驗點評 12.5 自助法 12.6 boot包中的自助法 12.7 小結
第四部分 高級方法
第13章 廣義線性模型
13.1 廣義線性模型和glm()函數
13.2 Logistic迴歸
13.3 泊松迴歸
13.4 小結
第14章 主成分分析和因子分析
14.1 R 中的主成分和因子分析
14.2 主成分分析
14.3 探索性因子分析
14.4 其他潛變量模型
14.5 小結
第15章 時間序列
15.1 在R中生成時序對象
15.2 時序的平滑化和季節性分解
15.3 指數預測模型
15.4 ARIMA 預測模型
15.5 延伸閱讀
15.6 小結
第16章 聚類分析
16.1 聚類分析的一般步驟
16.2 計算距離
16.3 層次聚類分析
16.4 劃分聚類分析
16.5 避免不存在的類
16.6 小結
第17章 分類
17.1 數據準備
17.2 邏輯迴歸
17.3 決策樹
17.4 隨機森林
17.5 支持向量機
17.6 選擇預測效果最好的解
17.7 用rattle包進行數據挖掘
17.8 小結
第18章 處理缺失數據的高級方法
18.1 處理缺失值的步驟
18.2 識別缺失值
18.3 探索缺失值模式
18.4 理解缺失數據的來由和影響
18.5 理性處理不完整數據
18.6 完整實例分析(行刪除)
18.7 多重插補
18.8 處理缺失值的其他方法
18.9 小結
第五部分 技能拓展
第19章 使用ggplot2進行高級繪圖
19.1 R 中的四種圖形系統
19.2 ggplot2包介紹
19.3 用幾何函數指定圖的類型
19.4 分組
19.5 刻面
19.6 添加光滑曲線
19.7 修改ggplot2圖形的外觀
19.8 保存圖形
19.9 小結
第20章 高級編程
20.1 R 語言回顧
20.2 環境
20.3 面向對象的編程
20.4 編寫有效的代碼
20.5 調試
20.6 深入學習
20.7 小結
第21章 創建包
21.1 非參分析和npar包
21.2 開發包
21.3 創建包的文檔
21.4 建立包
21.5 深入學習
21.6 小結
第22章 創建動態報告
22.1 用模版生成報告
22.2 用R和Markdown創建動態報告
22.3 用R和LaTeX創建動態報告
22.4 用R和Open Document創建動態報告
22.5 用R和Microsoft Word創建動態報告
22.6 小結
第23章 使用lattice進行高級繪圖
23.1 lattice包
23.2 調節變量
23.3 面板函數
23.4 分組變量
23.5 圖形參數
23.6 自定義圖形條帶
23.7 頁面佈局
23.8 深入學習
附錄A 圖形用戶界面
附錄B 自定義啟動環境
附錄C 從R中導出數據
附錄D R中的矩陣運算
附錄E 本書中用到的擴展包
附錄F 處理大數據集
附錄G 更新R
後記:探索R的世界
參考文獻
喜歡閒適安靜的生活,懂一點計算機編程,懂一點統計學和數據分析。(愛編程愛統計)