常用數據挖掘算法從入門到精通第十章支持向量機理論基礎

機器學習數據挖掘風投科技小AI諮詢小AI諮詢 2017-08-30

在介紹支持向量機（Support Vector Machine，SVM）算法之前，本文先向大家介紹SVM算法的理論基礎——統計學習理論的一些主要知識，希望對大家理解SVM算法有所幫助。

統計學習理論

統計方法是從事物的外在數量上的表現去推斷該事物可能的規律性，即從觀測自然現象或者專門安排的實驗所得到的數據去推斷該事物可能的規律性。

傳統統計學研究的是樣本數目趨於無窮大時的漸近理論，即當樣本趨於無窮多時的統計性質，比如，當試驗次數趨於無窮大時，頻率≈概率。但在實際問題中，樣本數目往往是有限的。
統計學習理論(Statistical Learning Theory，SLT) ，它為有限樣本的機器學習問題建立了一個良好的理論框架，較好地解決了小樣本、非線性、高維數和局部極小點等實際問題。即統計學習理論是小樣本統計估計和預測學習的最佳數學理論。

統計學習理論是支持向量機理論發展的基礎。

經驗風險和結構風險

預測與問題真實解之間的累積誤差就叫做風險。

在進行機器學習任務時，我們往往都是通過從訓練樣本集中訓練得到一個模型，然後再用這個模型來進行預測。

訓練誤差：

設定一個訓練誤差來表示模型對訓練樣本集的擬合程度，即模型在訓練樣本集上的性能表現。

一般誤差：

雖然訓練誤差對模型的性能評估具有一定的參考價值，但實際上，我們並不關心模型對訓練樣本集的預測有多麼準確。我們更關心的是使用之前訓練得到的模型對一個全新的數據集進行測試時，模型性能表現如何，由此產生的誤差稱作一般誤差。因此，要求我們的模型需要具備一定的泛化能力，即能夠在新的數據集上保持較好的預測性能。

可以證明，訓練誤差是一般誤差的一個很好的估計，當樣本數量很大時，訓練誤差接近於一般誤差。

但是由於樣本有限，模型在訓練樣本集上的訓練誤差（經驗風險）較小，但是在新數據集上的一般誤差（期望風險）可能會很大，因為可能會出現過擬合的情況。

神經網絡中經常出現的過擬合問題就是經驗風險最小化原則失敗的一個典型例子，所以後來才會考慮在模型中加入一個衡量模型複雜度的正則化項。

經驗風險最小化（Empiried Risk Minization，ERM）

理解為，由一般誤差引起的損失，即認為模型在已知訓練樣本集上的誤差越小，經驗風險越小，模型越好。

結構風險最小化(Structural Risk Minimization）

理解為，在原有的優化目標上（一般誤差最小），加入模型的複雜度這一優化目標。使得模型能夠保證在訓練樣本集上的性能（經驗風險越小）的同時，降低模型的 VC 維，從而提高機器學習模型的泛化能力，使得模型的期望風險得到控制。

模型越複雜其在訓練樣本集上的表現越好，但是其泛化能力可能會變差，因此結構風險最小化就是模型在訓練樣本集上的精確度和模型的複雜度之間的一個權衡。

函數集的VC維

對於一個指示函數（即只有0和1兩種取值的函數）集，如果存在h個樣本能夠被函數集裡的函數按照所有可能的2^h種形式分開，則稱函數集能夠把h個樣本打散，函數集的VC維就是能夠打散的最大樣本數目h。

一般而言，模型的VC維越大，學習能力就越強，但模型也就越複雜。

n維實數空間中線性分類器和線性實函數集的VC維是n+1

比如，2維空間中線性分類器的VC維是3。因為當h=4的時候，不存在一條直線能夠把如圖中的兩個紅點和兩個白點分開，因此對於線性分類器，h最大是3，即線性分類器的VC維是3。

常用數據挖掘算法從入門到精通第十章支持向量機理論基礎

2維空間中線性分類器的VC維是3

常用數據挖掘算法從入門到精通第十章支持向量機理論基礎

2維空間中線性分類器的VC維不能是4

相關推薦

一個簡單的案例帶你瞭解支持向量機算法（Python代碼）

介紹掌握機器學習算法並不是一個不可能完成的事情。大多數的初學者都是從學習迴歸開始的。是因為迴歸易於學習和使用，但這能夠解決我們全部的問題嗎？當然不行！因為...

算法機器學習 Python 技術人生第一份工作大學 2019-06-30

25道題檢測你對支持向量機算法的掌握程度

介紹在我們學習機器算法的時候，可以將機器學習算法視為包含刀槍劍戟斧鉞鉤叉的一個軍械庫。你可以使用各種各樣的兵器，但你要明白這些兵器是需要在合適的時間合理的...

算法機器學習新聞 2019-06-28

從小白到入門算法，學習經驗分享給你～

一個學子學習Python的回憶之路。寫本文的目的，一是對研究生階段所學習的知識做一個總結，二是希望對那些剛接觸機器學習，準備往這個方向發展的同學們提供一些...

算法 Python 機器學習推薦技術深度學習跳槽那些事兒數據結構程序員 Java Kaggle 網絡爬蟲讀書計算複雜性理論 Medium Scrapy 2019-05-12

理解支持向量機（SVM）

介紹：支持向量機可能是最流行的機器學習算法之一。它們在20世紀90年代被開發出來的時候非常受歡迎，並且仍然是高性能算法的首選方法，幾乎沒有調優。在這篇文章...

機器學習數學 Slack 技術 2018-12-02

15個開源工具幫你入門AI算法工程師，向30萬年薪發起挑戰

最近一份2018年校招高薪清單在程序員們的朋友圈裡刷了屏，人工智能和算法工程師最低年薪30萬，谷歌中國更是開出了56W人民幣年薪的高價。要知道，這個價格是...

機器學習工程師大數據人工智能 TOP100 2017-11-02

從大間隔分類器到核函數：全面理解支持向量機

選自KDNuggets機器之心編譯參與：劉曉坤、蔣思源在這篇文章中，我們希望讀者能對支持向量機（SVM）的工作方式有更高層次的理解。因此本文將更專注於培養...

機器學習數學深度學習 Java 機器之心 2017-10-09

《常用數據挖掘算法從入門到精通》系列文章學習目錄

《常用數據挖掘算法從入門到精通》系列文章現已更新完畢，大家可以按需學習。《常用數據挖掘算法從入門到精通》系列共21篇文章，主要向大家介紹了包括 K-means聚類, 決策樹分類, 人工神經網絡以及支持向量機等10多種常用的數據挖掘算法理論和具體的案例。本文給出全部的鏈接以及...

數據挖掘機器學習文章數學小AI諮詢 2017-09-17

R語言數據挖掘實踐——支持向量機代碼實戰

我們開始使用R語言分析iris數據集中各種花類別所具有的花萼及花瓣的特徵，建立適合的支持向量機模型，並對所建立的模型進行相應的分析，查看建立模型的預測能力...

機器學習 R語言數據挖掘可視化數據分析和挖掘 2017-09-06

R語言數據挖掘實踐——支持向量機的常用函數

e1071包是R語言中用於支持向量機建模與分析的軟件包，其主要用於支持向量機的模型構建，提供核心函數svm()來建立支持向量機的基礎模型，並且可輔助使用p...

機器學習 R語言數據挖掘技術數據分析和挖掘 2017-09-05

R語言數據挖掘實踐——五個場景全面讀懂支持向量機

到目前為止，我們已經學習了隨機森林、樸素貝葉斯算法、關聯規則、聚類分析等。這裡再介紹另外一個重要的機器學習算法——支持向量機模型。什麼是支持向量機？支持向...

機器學習數據挖掘 R語言隨機森林數據分析和挖掘 2017-09-02

常用數據挖掘算法從入門到精通第十二章人工神經網絡算法

本章為大家介紹人工神經網絡模型的一些重要知識，重點是BP神經網絡模型。人工神經網絡簡介人工神經網絡是生物神經網絡的某種模型(數學模型)人工神經網絡是對生物...

數據挖掘機器學習科普技術小AI諮詢 2017-09-02

常用數據挖掘算法從入門到精通第十一章支持向量機算法

上一章為大家介紹了支持向量機（Support Vector Machine，SVM）的理論基礎—統計學習理論的一些重要知識點，本章正式為大家介紹支持向量機...

機器學習拉格朗日數據挖掘計算複雜性理論小AI諮詢 2017-08-31

常用數據挖掘算法從入門到精通第三章 K-中心點聚類算法

今天主要講述K-中心點聚類算法，並附有詳細的案例來幫助大家理解。K-中心點聚類算法也稱K-medoids聚類算法。K-中心點聚類算法簡介第二章中講了K-m...

數據挖掘科技小AI諮詢 2017-08-29

常用數據挖掘算法從入門到精通第九章 CART決策樹分類算法

前面兩篇文章給大家介紹了ID3和C4.5決策樹分類算法，今天給大家介紹CART決策樹分類算法。CART算法簡介（Classification And Re...

機器學習數據挖掘科技小AI諮詢 2017-08-28

數字革命｜從演算法到人工智能，計算機的真正威力

首圖來源：Flickr/Elliott Brown CC BY 2.0為何要談演算法（Algorithm）而不直接講人工智能？因為人工智能是演算法的一種，...

人工智能機器學習計算複雜性理論阿蘭·圖靈小夏說事 2017-08-28

常用數據挖掘算法從入門到精通第五章貝葉斯分類算法

本文主要講述貝葉斯分類算法並附有詳細的案例幫助大家理解。分類分析分類分析是一種有監督的機器學習方法。主要解決的問題是利用訓練樣本集獲得分類函數或分類模型。...

機器學習數據挖掘科技小AI諮詢 2017-08-27

常用數據挖掘算法從入門到精通第二章 K-means聚類算法

今天主要講述K-means聚類算法，並附有詳細的案例來幫助大家理解。K-means聚類算法簡介聚類分析也稱無監督學習，因為和分類學習相比，聚類的樣本沒有...

數據挖掘歐幾里得科技小AI諮詢 2017-08-26

常用數據挖掘算法從入門到精通第一章數據預處理（6）數據離散化和概念層次

數據離散化和概念層次的概念屬性值分類枚舉型/類別型有序的無序的連續型：如實數類型數據離散化對於一個特定的連續屬性，可以把屬性值劃分成若干區間，以區間值來...

數據挖掘科技小AI諮詢 2017-08-06

運籌學教授葉蔭宇：優化算法作為AI理論基礎如何在實際中應用？

【獵雲網（微信：ilieyun）】6月25日報道從古至今，“優化”一直是生產生活中重要的部分。運籌學作為優化算法的重要根基，從第二次世界大戰時期就開始起源...

機器學習人工智能數學機器人 2017-06-27

機器學習實戰及Python實現——支持向量機（SVM）

本篇內容講一下業界鼎鼎大名的支持向量機，該算法之所以出名，一是模型參數少，稍微調整下，可以直接拿來使用；二是其具有紮實的數學理論基礎支撐；三是模型效果還不...

機器學習 Python 編程語言拉格朗日 2017-06-17

推薦中...

常用數據挖掘算法從入門到精通 第十章 支持向量機理論基礎

統計學習理論

經驗風險和結構風險

函數集的VC維

相關推薦

常用數據挖掘算法從入門到精通第十章支持向量機理論基礎