數據挖掘十大經典算法 K-NN

數據挖掘歐幾里得盤點數據分析之路 2017-05-12

數據挖掘十大經典算法 K-NN

• K-NN概念和定義

• K-NN算法：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多

數屬於某一個類別，則該樣本也屬於這個類別。

• K-NN適用：根據定義顯示K-NN顯然是可以執行分類任務，但是K-NN的近鄰思想讓他可以

做迴歸任務，相當於一個K近鄰樣本的均值處理（有時候需要加權處理）

• K-NN算法的關鍵參數為K值和加權方法

K-NN算法步驟（分類）

首先：確定參數K。即近鄰數量；

計算每個測試樣本和所有訓練樣本之間的距離；整理距離，基於K值選擇近鄰集合；確定每個近鄰所屬分類；通過對最近鄰集合採用“投票”方法來確定測試樣本分類的預測值；可以選擇是否加權處理

K-NN算法步驟（迴歸）

首先：確定參數K。即近鄰數量；計算每個測試樣本和所有訓練樣本之間的距離；整理距離，基於K值選擇近鄰集合；確定每個近鄰所屬分類；通過對最近鄰集合採用加權的方式來確定測試樣本的預測值

K-NN參數優化

• 對於K-NN算法來講，參數的選擇比較少，K值是一個關鍵的參數選擇；

• 一般對於K值選擇來講，奇數值比偶數值更值得推薦，能夠更有效地避免投票平局；數據挖掘十大經典算法 K-NN • K值選擇一般為3、5、7等不大的奇數值為最佳，但是如果想取大一些的K值，那麼大於10的K值也會經常出現

• 對於加權處理，沒有權威的證據證明加權處理是對近鄰更有效的處理，往往加權會導致一定程度上的擬合過度，所以加權公式也是K-NN算法研究熱門之一.

數據挖掘十大經典算法 K-NN

請點擊此處輸入圖片描述請點擊此處輸入圖片描述

K-NN算法特點

• K-NN是挖掘算法中“統計學習”大類下面的一種算法，並且屬於懶惰模型，即算法的計算是直到預測任務來臨才進行計算

• KNN對於維度相當敏感，每次計算需要遍歷樣本集計算樣本間的距離，在大數據集裡，這是一個不小的工程；

距離計算方式和近鄰

通常，計算距離我們當仁不讓用歐氏距離，歐式距離是最常用的距離，但是如果算法對應維度較多時，根據維數災難的理論知識我們可以知道，當維度變大時，近鄰的概念也變得模糊。替換方案：採用餘弦距離等度量來替換歐幾裡得距離；由於K-NN可以支持數值和名義型數據，所以混合度量也是常用的選擇；

大訓練集性能和擬合

對於K-NN，訓練集增大會導致嚴重的效率問題，而且由於K-NN是懶惰模型，所以，如果確定了K值，其實是不需要訓練的；

K-NN劣勢：沒有可擴展能力，即每次判定都需要即時計算，維度災難影響模型較多，距離度量的權重因子也是問題，目前沒有更好的權重方案在成熟軟件中使用；

投票：對於類別在3個及以上，經常會出現投票平局，平局要按照默認規則取默認值，這會讓K-NN損失精準度。

相關推薦

'數據挖掘｜喜馬拉雅音頻內容分析'

"筆者從整體架構到欄目設置，深入分析了喜馬拉雅的音頻內容，供大家學習參考。01 行業概述據艾媒網數據，2018年中國在線音頻市場用戶規模達4.25億人，預計到2020年，中國在線音頻用戶規模將達5.42億人。筆者認為，得益於知識付費的爆發，依託於音頻媒介的知識獲取方式，越來...

蜻蜓FM 數據挖掘愛奇藝音箱硬件創作者來直播網易雲音樂蜻蜓智能家居 QQ音樂技術播客自媒體騰訊視頻 Bilibili 穿戴設備鳳凰網騰訊QQ 人工智能知乎福特汽車掌閱音樂百度聲優智能手機讀書市場營銷小說天貓 TCL集團推薦技術網易 2019-09-14

'如何用Python進行大數據挖掘和分析？快速入門路徑圖'

"大數據無處不在。在時下這個年代，不管你喜歡與否，在運營一個成功的商業的過程中都有可能會遇到它。什麼是大數據？大數據就像它看起來那樣——有大量的數據。單獨而言，你能從單一的數據獲取的洞見窮其有限。但是結合複雜數學模型以及強大計算能力的TB級數據，卻能創造出人類無法制...

Python 大數據數據庫數據挖掘網絡爬蟲 SQL 算法可視化技術 Scrapy Google Excel 音樂 YouTube 租房隨機森林 2019-09-14

'分享五個社群營銷的經典案例'

"近年來，所有營銷人員都可以很明顯地感受到，企業對圈流量這件事越來越沒有從前那麼重視，各個巨頭已經大幅降低了對補貼戰、地推的投入。同時，以流量為核心的線上投放策略越來越沒有效果，不管是搜索引擎，還是信息流、網盟、首頁、開屏，打開率越來越不理想，ROI(Return On I...

市場營銷葡萄酒米粉羅輯思維自媒體創業文化意大利湖南讀書數據挖掘 2019-09-07

'十個算法，能讓程序員浪跡編程界，你信不信？附教程分享'

"什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅計算機需要算法，我們在日常生活中也在使用算法）。算法必須具備如下3個重要特性：有窮性，執行有限步驟後，算法必須中止。確...

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎智能手機數據挖掘 Linkedin 殺毒軟件瀏覽器 Wi-Fi 人工智能 YouTube 社交網絡 2019-09-07

'企業計算中的機器人智能問答簡介'

"企業計算（enterprise computing）是一個新名詞。傳統的企業計算涵蓋企業信息系統的構建與應用範疇，如ERP軟件（企業資源規劃）、CRM軟件（客戶關係管理）、SCM軟件（供應鏈管理，即物流軟件）銀行證券軟件、財務軟件、電子商務/政務（包括各種網站）、數據倉庫...

技術機器人市場營銷軟件數據挖掘 IBM 微軟移動互聯網人生第一份工作財務軟件 2019-09-05

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'分享圖靈大佬總結的人工智能、機器學習、數據挖掘的區別'

"導語人工智能、機器學習、數據挖掘已然越來越火，我只是聽了個耳熟，真正學習才剛剛開始，簡單的說一下最近的學習成果：AI ML DM的區別。總體來說三者的區別是目的不同，但達到目的的方法有很大重疊之處。數據挖掘是用來理解事物的；機器學習是用來預測事物的；人工智能是用來生成行動...

人工智能數據挖掘阿蘭·圖靈算法數據庫技術電腦英語計算複雜性理論 2019-09-03

'數據挖掘知識點串燒：邏輯迴歸'

"作者 | DD-Kylin來源 | 木東居士0x00 前言我們知道，迴歸模型可以解決因變量為連續變量的問題，但是，如果因變量為分類變量的話，用迴歸的方法就行不通了。這個時候我們就得選擇用其他的分類方法了，如決策樹、隨機森林、SVM等。而本篇文章要說的邏輯迴歸也是一種很好的...

算法數據挖掘數學人工智能隨機森林板栗中標麒麟 2019-09-03

'雲計算和大數據的區別'

"隨著科技的進步，全面實現生產過程和業務管理的數字化、智能化是企業保持市場競爭力的關鍵，在這一過程中對數據的處理和運用將極大的增強企業的核心競爭力，同時，AI 的進步為企業提供了自動化的業務流程，並深刻改變著客戶體驗和產品差異。當企業紛紛利用這些技術，來降低管理費用，擴大業...

雲計算大數據數據庫數據挖掘技術人工智能物聯網電腦軟件如果雲算法硬件經濟人生第一份工作 2019-09-01

'作為一名程序員必知必會的十個算法，附教程分享，網友：實用'

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎 Linkedin YouTube 數據挖掘 Wi-Fi 智能手機殺毒軟件瀏覽器人工智能社交網絡歷史 2019-08-28

'什麼是數據挖掘，有哪些應用？終於有人講明白了'

"導讀：數據採集和存儲技術的迅速發展，加之數據生成與傳播的便捷性，致使數據爆炸性增長，最終形成了當前的大數據時代。圍繞這些數據集進行可行的深入分析，對幾乎所有社會領域的決策都變得越來越重要：商業和工業、科學和工程、醫藥和生物技術以及政府和個人。然而，數據的數量（體積）、複雜...

數據挖掘技術生物技術大數據穿戴設備算法智能手機電子商務深度學習物理生物物聯網設計熱帶氣旋市場營銷地球掃描儀無人駕駛美國國家航空航天局 2019-08-28

'通過數據挖掘，我們研究了完美日記的兩大增長策略'

"如果你對美妝產品略知一二，就一定聽說過這個號稱“國貨之光”的品牌 - 完美日記。就在上個月，它又獲得了新一輪融資，估值已經超過10億美金。雖然完美日記主打的脣膏、脣釉、眼影等彩妝產品的市場競爭十分激烈，但下面這張銷量數據圖卻清晰的顯示，它正以驚人的增長速度殺出重圍：僅用8...

天貓數據挖掘動物國貨之光最in買手君良心國貨大賞眼影歐萊雅化妝百雀羚 4月吃什麼電子商務 SK-II 2019-08-27

'雲計算：何以成為科技巨頭的“增長黑客”？'

"雲計算是數據發展的主要趨勢科技領域近三年以來，如果要說IT產業發展過程中最大的"黑馬"，非"雲計算"莫屬，雲計算和物聯網、AI一起成為驅動人類社會走向"智能社會"的三駕馬車。物聯網和AI比較好理解，但"雲計算"對眾多人而言是"知其然而不知其所以然"，要說出個"子醜寅卯"，...

雲計算黑客大數據電子商務阿里巴巴集團阿里雲計算物聯網數據挖掘人工智能軟件交通淘寶網石油服裝硬件微軟 Google 人生第一份工作圓通速遞 2019-08-12

'跨專業也能申請的加拿大畢索大學計算機碩士項目'

"眾所周知，加拿大碩士項目的遊戲規則，是出名的嚴格。常見標籤之一：不可跨專業申請。明顯增加難度指數！但是，今天我們立思辰留學給同學們分享一個 “反”遊戲規則的項目：加拿大畢索大學的計算機碩士（小夥伴們有木有很興奮呢？挑眉ing）專業亮點1.獲得碩士學位並進入計算機行業的...

電腦大學加拿大大數據技術雅思數據挖掘數學留學託福電子工程算法人生第一份工作數據結構物理移民高德軟件高德導航魁北克經濟 2019-08-12

'加拿大畢索大學計算機碩士，跨專業也能申請啦'

"畢索大學計算機碩士Master of Science --Computer Science眾所周知，加拿大碩士項目的遊戲規則，是出名的嚴格。常見標籤之一 #不可跨專業申請#。明顯增加難度指數！但是，今天我們分享給同學們一個 “反”遊戲規則的項目畢索大學--計算機碩士（小夥...

電腦大學加拿大技術大數據數據挖掘雅思數學託福電子工程數據結構人生第一份工作算法移民物理設計高德導航魁北克高德軟件經濟 2019-08-11

'\'計算社會經濟學\'長文綜述：洞察社會經濟發展的跨學科新視角'

"導語隨著數據量的日益增“大”、計算能力的增強，研究者利用“計算社會經濟學”方法，可以更好地理解社會經濟系統的組織結構，及時估算出社會經濟狀態，這對經濟發展具有重要意義。電子科技大學的周濤、高見和瑞士弗裡堡大學的張翼成，近日在 Physics Reports 期刊上發表了...

經濟遙感社會科學技術大學人造衛星自然科學機器學習物理算法周濤瑞士電子科技大學大數據數據挖掘 2019-08-10

'python數據挖掘需要學的內容'

"1、Pandas庫的操作Panda是數據分析特別重要的一個庫，我們要掌握以下三點：· pandas 分組計算;· pandas 索引與多重索引;索引比較難，但是卻是非常重要的· pandas 多表操作與數據透視表2、numpy數值計算numpy數據計算主要應用是在數據挖掘...

Python 數據挖掘可視化技術機器學習算法深度學習 2019-08-09

'真正支配整個世界的十種算法'

"本文轉自： InfoQ，作者：Marcos Otero，頭圖來自：攝圖網。前幾天，我在 Reddit 上面閒逛的時候，發現了一篇有趣的文章，名為《影響我們世界的十大算法》。作者 George Dvorsky 希望通過此文解釋算法在當今世界上的重要意義，以及哪些算法為我們...

算法約瑟夫·傅里葉電腦文章網絡安全 Facebook 算術智能手機人工智能數學數據挖掘 2019-08-09

'ACM班×姚班，計算機“黃金一代”邁進巔峰之門'

"作者：連然2005年，計算機科學家姚期智歸國，在清華創辦了「軟件科學實驗班」，即姚班。對於那些志在登上計算機科學金字塔尖的學生來說，師從圖靈獎得主姚期智，幾乎等於邁進「巔峰之門」。要邁進巔峰之門，這些天才班的門檻有多高？以姚班為例，2018級清華姚班錄取的50人中，幾乎全...

電腦姚期智清華大學技術人工智能黃金軟件無人駕駛區塊鏈人生第一份工作程序設計創業上海交通大學上海 Google 伊隆·馬斯克馬雲程序員經濟歷史沈南鵬數據挖掘 2019-08-07

'AI 算法工程師的 7 年總結，內部經驗放出（文末附教程）'

"入行前5年在一家上市遊戲公司做算法，從數據挖掘算法在業務線落地開始，涉及機器學習、深度學習，後來逐步負責整個算法團隊建設。現在在阿里，也是負責算法方面的工作，涉及到的領域涵蓋CV、NLP、架構等，業務線也擴展到廣告、運營、客服、風控等各個方面。算法崗競爭很激烈嗎？在外行人...

算法工程師人工智能深度學習數據挖掘技術人生第一份工作大數據網絡安全數學程序員電腦數據結構產品經理編程語言物理 2019-07-30

推薦中...