R語言數據挖掘實踐——K最近鄰算法

數據挖掘 R語言教育數據分析和挖掘數據分析和挖掘 2017-08-30

R語言數據挖掘實踐——K最近鄰算法

K最近鄰算法，簡稱KNN算法，單從名字來猜想，可以簡單粗暴的認為是：K個最近的鄰居，當K=1時，算法便成了最近鄰算法，即尋找最近的那個鄰居。

所謂K最近鄰算法，即是給定一個訓練數據集，對新的輸入實例，在訓練數據集中找到與該實例最鄰近的K個實例，這K個實例的多數屬於某個類，就把該輸入實例分類到這個類中。

K最近鄰算法的核心函數為knn()函數，區別於線性判別和樸素貝葉斯分類，knn()函數集判別規則的“建立”和“預測”這兩個步驟於一體，即不需要在規則建立後再使用predict()函數來進行預測。在使用K最近鄰算法之前，我們先要安裝並加載class軟件包。

首先按照次序向knn()函數中依次放入訓練集中各屬性變量（除去Species變量）、測試集（除去Species變量）、訓練集中的判別變量Species，並首先取K的默認值1進行判別。

> library(class)

> set.seed(1234)

> ind <- sample(2, nrow(iris), replace = TRUE, prob = c(0.7,0.3))

> data_train <- iris[ind==1,]

> data_test <- iris[ind==2,]

>#建立K最近鄰判別規則，並對測試集樣本進行預測

> fit_pre_knn <- knn(data_train[,-5],data_test[,-5],cl=data_train[,5])

>#輸出在K最近鄰判別規則下的判別結果

> fit_pre_knn

[1] setosa setosa setosa setosa setosa setosa setosa setosa

[9] setosa setosa versicolor versicolor versicolor versicolor versicolor versicolor

[17] versicolor versicolor versicolor versicolor versicolor versicolor virginica virginica

[25] virginica virginica versicolor virginica virginica virginica virginica virginica

[33] virginica virginica virginica virginica virginica virginica

Levels: setosa versicolor virginica

>#生成Species真實值與預測值的混淆矩陣

> table(data_test$Species,fit_pre_knn)

fit_pre_knn

setosa versicolor virginica

setosa 10 0 0

versicolor 0 12 0

virginica 0 1 15

由混淆矩陣我們可以看到，Species的三個類別分別有10、12、15個樣本被正確分類，其中setosa、versicolor全部分類正確，而virginica有1個樣本分類錯誤。我們再來計算一下錯誤率：

> error_knn <-sum(as.numeric(as.numeric(fit_pre_knn)!=as.numeric(data_test$Species)))/nrow(data_test)

> error_knn

[1] 0.02631579

我們看到K取1時，K最近鄰的預測錯誤率僅為0.026，判別錯誤率很低。在實際情況中，K最近鄰算法未必會是最優算法，這時需要針對不同數據集選取使用不同的挖掘算法。

下面我們通過調整K的取值，選擇出最適合於該數據集的K值，將尋找範圍控制在1~20，代碼如下：

>#對將用於存儲K取值1~20時預測錯誤率error_knn變量賦初始值為0

> error_knn <- rep(0,20)

>#構造for循環

> for(i in 1:20) {

+ fit_pre_knn <- knn(data_train[,-5],data_test[,-5],cl=data_train[,5],k=i)

+ error_knn[i] <- sum(as.numeric(as.numeric(fit_pre_knn)!=as.numeric(data_test$Species)))/nrow(data_test)

+ }

> error_knn

[1] 0.02631579 0.05263158 0.02631579 0.02631579 0.00000000 0.00000000 0.00000000 0.02631579 0.00000000 0.02631579 0.00000000 0.02631579

[13] 0.02631579 0.00000000 0.00000000 0.00000000 0.00000000 0.02631579 0.00000000 0.02631579

得到上面的數值結果後，我們來對這20個錯誤率的值作折線圖，這樣可以直觀地看到K取何值時所對應的錯誤率最小。

>plot(error_knn, type="l", xlab="K")

R語言數據挖掘實踐——K最近鄰算法

K最近鄰算法也有缺陷，當樣本不平衡，即某些類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入一個新樣本時，該樣本的K個最近鄰樣本中大容量類別的樣本佔多數。在這種情況下就可使用有權重的K最近鄰算法來改進。

相關推薦

'十個算法，能讓程序員浪跡編程界，你信不信？附教程分享'

"什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅計算機需要算法，我們在日常生活中也在使用算法）。算法必須具備如下3個重要特性：有窮性，執行有限步驟後，算法必須中止。確...

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎智能手機數據挖掘 Linkedin 殺毒軟件瀏覽器 Wi-Fi 人工智能 YouTube 社交網絡 2019-09-07

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'作為一名程序員必知必會的十個算法，附教程分享，網友：實用'

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎 Linkedin YouTube 數據挖掘 Wi-Fi 智能手機殺毒軟件瀏覽器人工智能社交網絡歷史 2019-08-28

'真正支配整個世界的十種算法'

"本文轉自： InfoQ，作者：Marcos Otero，頭圖來自：攝圖網。前幾天，我在 Reddit 上面閒逛的時候，發現了一篇有趣的文章，名為《影響我們世界的十大算法》。作者 George Dvorsky 希望通過此文解釋算法在當今世界上的重要意義，以及哪些算法為我們...

算法約瑟夫·傅里葉電腦文章網絡安全 Facebook 算術智能手機人工智能數學數據挖掘 2019-08-09

'RevoScaleR 中函數rxDTree 擬合決策樹模型（R語言/ MLS)'

"RevoScaleR中的rxDTree函數使用基於二進制的遞歸分區算法來匹配基於樹的模型。得到的模型與推薦的R包rpart生成的模型相似。就像rpart一樣，rxDTree也支持分類樹和迴歸樹；差異由響應變量的性質決定：一個因子響應生成一個分類樹；數值響應生成迴歸樹。rx...

R語言算法手術兩百年大數據技術 2019-08-07

'用R語言讀取Excel、PDF和JSON文件，終於有人講明白了'

"導讀：本文將討論Excel、PDF等文件的讀取，以及相應函數的參數設置。作者：劉健鄔書豪如需轉載請聯繫華章科技下圖總結了主要程序包，希望讀者在日常練習和工作中遇到不同格式的文件時，能夠瞬間反應出讀取該格式所需的包及對應的函數。（限於篇幅，本文未包含圖中“平面文檔格式”這...

Excel JSON R語言大學大數據人生第一份工作 2019-08-01

'AI 算法工程師的 7 年總結，內部經驗放出（文末附教程）'

"入行前5年在一家上市遊戲公司做算法，從數據挖掘算法在業務線落地開始，涉及機器學習、深度學習，後來逐步負責整個算法團隊建設。現在在阿里，也是負責算法方面的工作，涉及到的領域涵蓋CV、NLP、架構等，業務線也擴展到廣告、運營、客服、風控等各個方面。算法崗競爭很激烈嗎？在外行人...

算法工程師人工智能深度學習數據挖掘技術人生第一份工作大數據網絡安全數學程序員電腦數據結構產品經理編程語言物理 2019-07-30

'一文看懂用R語言讀取Excel、PDF和JSON文件（附代碼）'

Excel JSON R語言人生第一份工作微軟大數據大學 2019-07-30

'機器學習算法已成量化投資跑贏市場的新推手 | 智周報告核心版'

"區別於傳統基本面分析和技術面分析，量化分析是從數量化的角度去挖掘存在某種數學關係的投資策略。結合機器學習算法的量化投資方法已在量化選股、量化擇時、股指期貨套利、商品期貨套利、統計套利、算法交易等多類量化證券投資策略中應用。如今各類量化投資基金聘用機器學習算法科學家，組建人...

算法投資人工智能金融證券投資基金私募基金期貨數據挖掘期指自然語言處理私募技術分析師公募新聞數學人生第一份工作歷史 2019-07-30

'阿里文娛永叔：利器or成本損耗？算法不是黑匣子'

"2018年9月16日，由AICUG人工智能技術社區、Datafun社區、博學聯合主辦的2018 AI先行者大會於杭州召開，來自阿里文娛、科大訊飛、京東、華為、微軟、騰訊、平安壹錢包、宜信、地平線、格靈深瞳等企業的數十名技術專家向參會者分享了國內不同行業公司的AI實踐經驗。...

人工智能算法阿里巴巴集團技術 CSDN 優酷土豆高能小子終極裝備推薦技術百度淘寶網搜狗自然語言處理語音識別技術餓了麼數據挖掘市場營銷計算廣告學微軟京東商城硬件華為公司騰訊 2019-07-27

'自動化R語言單元測試提取'

"摘要本文探討了如何從客戶端代碼的執行跟蹤中提取目標軟件包的單元測試。我們的目標是減少創建測試套件所需的工作量，同時最大限度地減少單個測試的數量和大小，並最大限度地擴大覆蓋率。為了評估該方法的可行性，我們選擇了一個具有挑戰性的自動化測試提取的目標語言，即R語言，一種在數據科...

R語言軟件腳本語言程序員編程語言技術 2019-07-20

'漲姿勢咧~主宰這個世界的 10 大算法是哪些'

"00 前言01 什麼是算法？00 前言Reddit有篇帖子介紹了算法對我們現在生活的重要性，以及哪些算法對現代文明所做貢獻最大。這個表單並不完整，很多與我們密切相關的算法都沒有提到，如機器學習和矩陣乘法，歡迎你繼續補充。如果對算法有所瞭解，讀這篇文章時你可能會問“作者知道...

算法電腦網絡安全技術數學人工智能 Reddit 數據挖掘 Facebook 搜索引擎智能手機瀏覽器 Wi-Fi 殺毒軟件路由器 2019-07-15

主宰這個世界的10大算法，附贈程序員自學視頻教程

什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅...

算法程序員 Google+ Google 電腦技術網絡安全數學 Facebook 搜索引擎 Linkedin 瀏覽器數據挖掘智能手機殺毒軟件 YouTube Wi-Fi 人工智能歷史社交網絡 2019-07-13

2019騰訊廣告算法大賽完美收官，算法達人鵝廠“出道”

7月8日，2019騰訊廣告算法大賽“終極之戰”在深圳騰訊濱海大廈順利舉行。在前兩屆成功經驗的基礎上，今年大賽在賽題專業性和賽事體驗上都有了更大的提升，進而...

騰訊算法數據挖掘劉歡大學電子科技大學技術武漢大學大數據北京航空航天大學工程師深圳東南大學復旦大學廈門大學中山大學西安微軟亞洲研究院華南理工大學微軟哈爾濱工業大學浙江大學伊利諾伊機器學習 2019-07-11

讓程序員走遍天下都不怕的十個算法，附教程分享

算法程序員 Google+ Google 電腦網絡安全 Facebook 數學技術搜索引擎智能手機數據挖掘 Linkedin YouTube 瀏覽器 Wi-Fi 歷史殺毒軟件社交網絡人工智能 2019-07-07

送你一篇關於如何成為一名AI算法工程師的長文

來源：Datawhale本文約5000字，建議閱讀9分鐘。本文和大家分享一篇成為AI算法工程師的文章，助力大家早日成為專業人士~這是一篇關於如何成為一名 ...

人工智能算法工程師技術 Python 編程語言 R語言程序員芝麻信用機器人數學讀書人生第一份工作金融搜索引擎 SPSS 網絡爬蟲鼠標銀行 2019-07-06

簡單瞭解十大真實算法的特點

首先在說這個之前，我們首先要搞明白，什麼是算法？算法就是任何明確定義的計算過程，它接受一些值或集合作為輸入，併產生一些值或集合作為輸出。因此，算法就是將輸...

算法約瑟夫·傅里葉技術電腦數學查爾斯·庫利數據結構瀏覽器人工智能搜索引擎數據挖掘 2019-07-04

如何成為一名AI人工智能算法工程師？

經常有朋友私信問，如何學python呀，如何敲代碼呀，如何進入AI行業呀？正好回頭看看自己這一年走過的路，進行一次經驗總結。來看看你距離成為一名AI工程師...

人工智能算法工程師 Python 智能家居編程語言圖像處理人生第一份工作技術芝麻信用程序員搜索引擎 R語言數學鼠標網絡爬蟲深圳銀行 SPSS 2019-06-29

漲姿勢：主宰這個世界的10種算法

出自linux中文社區鏈接：https://linux.cn/article-3125-1.html什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算...

算法 Linux Google 電腦技術 Google+ 數學網絡安全 Facebook 數據挖掘瀏覽器 Wi-Fi 智能手機搜索引擎 YouTube Linkedin 人工智能殺毒軟件社交網絡 2019-06-20

R語言繪圖：28個實用程序包

本文轉載自“ 阿虎定量筆記“，作者鄭連虎，轉載己獲授權。其他人轉載請聯繫原作者，點我跳轉原文。全文註釋# 示例參考幫助文檔# 我用Rstudio重現了所有...

R語言 RStudio 非洲 GU 2019-06-19

推薦中...