常用數據挖掘算法從入門到精通第十一章支持向量機算法

機器學習拉格朗日數據挖掘計算複雜性理論小AI諮詢小AI諮詢 2017-08-31

上一章為大家介紹了支持向量機（Support Vector Machine，SVM）的理論基礎—統計學習理論的一些重要知識點，本章正式為大家介紹支持向量機算法。

支持向量機是在統計學習理論的VC維和結構風險最小化原理的基礎上發展起來的一種新的機器學習方法。SVM根據有限樣本的信息在模型的複雜性（即對特定樣本的學習精度）和學習能力（即無錯誤地識別任意樣本的能力）之間尋求最佳折中，以期獲得最好的推廣能力。

結構風險最小化(Structural Risk Minimization，SRM）

統計學習理論從VC維的概念出發，推導出關於經驗風險和期望風險（真實風險的期望風險）之間關係的重要結論，稱為泛化誤差界，統計學習理論給出了以下估計真實風險的不等式。

常用數據挖掘算法從入門到精通第十一章支持向量機算法

估計真實風險的不等式

其中R(w)是真實風險，Remp(w)表示經驗風險，Φ(n/h)稱為置信風險（置信範圍）；n代表樣本數量，h是函數集合的VC維，Φ是遞減函數。

上述不等式（定理）說明，學習機器的期望風險由兩部分組成：

第一部分是經驗風險（學習誤差引起的損失），依賴於預測函數的選擇
第二部分稱為置信範圍，是關於函數集VC維h的增函數

顯然，如果n/h較大，則期望風險值由經驗風險值決定，此時為了最小化期望風險，我們只需最小化經驗風險即可；

相反，如果n/h較小，經驗風險最小並不能保證期望風險一定最小，此時我們必須同時考慮不等式右端的兩項之和，稱為結構風險。

常用數據挖掘算法從入門到精通第十一章支持向量機算法

結構風險最小化

一般的學習方法(如神經網絡)是基於 Remp(w) 最小，滿足對已有訓練數據的最佳擬和，在理論上可以通過增加算法（如神經網絡）的規模使得Remp(w) 不斷降低以至為0
但是,這樣使得算法（神經網絡）的複雜度增加，VC維h增加，從而Φ(n/h)增大，導致實際風險R(w)增加，這就是學習算法的過擬合(Overfitting).

大家如果想更好地理解結構風險最小化原則，可以先看一下前一篇文章《第十章支持向量機理論基礎》，裡面有一些關於統計學習理論主要知識的比較詳細的介紹。

分類問題的數學表示

2維空間上的分類問題⇨n維空間上的分類問題。

常用數據挖掘算法從入門到精通第十一章支持向量機算法

分類問題的數學表示

分類問題的學習方法

常用數據挖掘算法從入門到精通第十一章支持向量機算法

分類問題的學習方法

SVM分類問題大致有三種：線性可分問題、近似線性可分問題、線性不可分問題。

線性可分情形：最大間隔原理

對於線性可分的情況，l_到l0和l+到l0的距離和，利用兩條平行直線間的距離公式很容易得到距離（間隔）=2/||w||，最大化間隔就是求w的最小值。S.T.說明必須在滿足約束條件（正確分類）的前提下求w的最小值。

常用數據挖掘算法從入門到精通第十一章支持向量機算法

線性可分情形

模型求解：

原始問題是一個典型的線性約束的凸二次規劃問題，模型求解主要用到了運籌學裡面的方法，在這裡就不仔細展開了，求解的思想主要是：

第一步，在原始問題中引入拉格朗日乘子轉化為無約束問題（拉格朗日乘子法）;
第二步，根據最優化的一階條件將原始問題轉化為對偶問題;
第三步，根據KKT條件得到求得最優解時應滿足的條件.

KKT條件是拉格朗日乘子法的泛化，在有等式約束時使用拉格朗日乘子法，在有不等約束時使用KKT條件

支持向量：

在兩類樣本中離最優分類超平面最近且在平行於最優分類超平面的平面l_,l+上的訓練樣本就叫做支持向量，理解為它們支撐起了超平面l_和l+，所以稱為支持向量，數學含義如下。

常用數據挖掘算法從入門到精通第十一章支持向量機算法

支持向量

近似線性可分情形

常用數據挖掘算法從入門到精通第十一章支持向量機算法

近似線性可分情形

常用數據挖掘算法從入門到精通第十一章支持向量機算法

引入鬆弛變量

常用數據挖掘算法從入門到精通第十一章支持向量機算法

引入懲罰函數

即，C代表了經驗風險與置信風險的折中。

線性不可分情形

把尋找低維空間非線性的“最大超曲面”問題轉化為在高維空間中求解線性的“最大間隔平面”問題。即，把非線性可分的樣本映射到高維空間，使樣本線性可分。

常用數據挖掘算法從入門到精通第十一章支持向量機算法

線性不可分情形

線性不可分模型

常用數據挖掘算法從入門到精通第十一章支持向量機算法

線性不可分模型

模型（3）的求解，必須知道非線性映射Ф的具體形式，但實際工作上，給出Ф的具體形式往往是非常困難的。

線性不可分問題的求解

常用數據挖掘算法從入門到精通第十一章支持向量機算法

線性不可分問題的求解

核函數K(xi,xj)

K(xi,xj)=(Ф(xi),Ф(xj))=Ф(xi)*Ф(xj)是樣本xi,xj在特徵空間中的內積，稱為輸入空間X上的核函數。

對非線性問題, 可以通過非線性變換轉化為某個高維空間中的線性問題, 在變換空間求最優分類面. 這種變換可能比較複雜, 因此這種思路在一般情況下不易實現
為了避免從低維空間到高維空間可能帶來的維數災難問題，避免進行高維的內積運算

綜上考慮引入核函數。

利用核函數代替向高維空間的非線性映射，並且不需要知道映射函數
在最優分類面中採用適當的核函數就可以實現某一非線性變換後的線性分類,而計算複雜度卻沒有增加
通過計算K(xi,xj)的值可以避免高維空間的內積運算，這種內積運算可通過定義在原空間中的核函數來實現, 甚至不必知道變換的形式

SVM中不同的核函數將形成不同的算法，主要的核函數有三類：

常用數據挖掘算法從入門到精通第十一章支持向量機算法

SVM常見的核函數

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'2019WAIC 算法產業化落地，思必馳劍指AI語音未來'

"前沿算法探索和實踐不僅是純學術性的研究，更是引領人工智能產業化落地方的風向標，前沿算法的產業化落地變得尤為重要。人工智能60多年的發展歷程中，算法一直推動學術和產業向前發展的核心力量。今天，人工智能已經從價值驗證期走向規模化落地期。2019世界人工智能大會於8月29-31...

算法 2019世界人工智能大會技術人工智能語音識別技術機器人耳機硬件智能硬件人機交互音箱機器學習上海餐飲 2019-09-12

'程序員的靈魂！算法'

"寫作有金線，金線之上，作家的文字才可能會被流傳下來。編程也是一樣，卓越的程序員和普通程序員之間也有一條看不見的金線，金線之上的程序員，才能做出更具規模，更有創新，更優性能，更智能的軟件和服務。這條金線是什麼呢？數據結構和算法。每個程序員都知道數據結構和算法的重要性，但是真...

算法程序員工程師數據結構數學機器學習編程語言人工智能技術程序設計電腦推薦技術人生第一份工作 2019-09-12

'機器學習之誤差反向傳播算法'

"機器學習之誤差反向傳播算法我們知道神經網絡是由大量的參數即權重構成，神經網絡的學習過程則是這些參數的變化更新過程。誤差反向傳播算法就是用於更新這些參數的。這裡我們假設激活函數為Sigmoid。Ps: 在吳恩達機器學習反向傳播算法課程中，而不是：這是因為吳恩達中使用的損失...

機器學習算法吳恩達人工智能 2019-09-09

'今天的內容你可能看不懂，全是關於AI算法的終極討論'

"人工智能下一站是哪裡？深度學習還能紅多久？全球最頂尖的科學家，共論AI的未來。他們的眼光，越過當下，落在那個AI與人類共存的未來。數據、算法、算力，人工智能三要素。如果說數據和算力是必要條件，決定了AI的過去，那麼算法作為“靈魂”，定義了AI的未來。自人工智能概念被提出6...

人工智能算法深度學習機器學習電腦技術加拿大周志華語音識別技術大學卡內基梅隆大學讀書高能小子終極裝備人生第一份工作 2019-09-07

'十個算法，能讓程序員浪跡編程界，你信不信？附教程分享'

"什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅計算機需要算法，我們在日常生活中也在使用算法）。算法必須具備如下3個重要特性：有窮性，執行有限步驟後，算法必須中止。確...

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎智能手機數據挖掘 Linkedin 殺毒軟件瀏覽器 Wi-Fi 人工智能 YouTube 社交網絡 2019-09-07

'機器學習在ABR算法中的應用縱覽'

"本文整理自LiveVideoStack線上分享第三季，第五期，由清華大學計算機系網絡技術研究所博士生王莫為為大家介紹近些年ABR算法的發展，探討基於機器學習的ABR算法的優劣勢，並結合AiTrans比賽分析其在直播場景中的應用問題。文/王莫為整理/LiveVideoSta...

算法機器學習技術深度學習愛奇藝清華大學 YouTube 創作者來直播人工智能歷史 2019-09-07

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'揭祕人工智能深度學習算法的奧祕'

"話說當前最熱門的技術是什麼？我想非人工智能莫屬。雖說大導演斯皮爾伯格在2001年就拍攝了好萊塢大片《人工智能》，但他怎麼又能想到十幾年後人類在人工智能領域紮紮實實得走出了一大步——以阿爾法機器人為代表的人工智能橫空出世，在圍棋上戰勝了人類最強棋手。具備學習思考能力的機器人...

人工智能深度學習算法電腦機器學習技術機器人九陽神功文章 2019-09-03

'作為一名程序員必知必會的十個算法，附教程分享，網友：實用'

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎 Linkedin YouTube 數據挖掘 Wi-Fi 智能手機殺毒軟件瀏覽器人工智能社交網絡歷史 2019-08-28

'這應該是全網最全的 Python 算法集！（附415集全套教程分享）'

"本文較長，建議大家仔細閱讀！2019年最新python教程如果你處於想學python或者正在學習python，那麼你的python教程應該不少了吧，但是是最新的嗎？說不定你學的可能是兩年前人家就學過的內容，在這小編分享一波2019最新的python全套教程最後小編為大家準...

Python 算法腳本語言卡爾·高斯 GPS 讀書機器學習 GitHub 機器人工程師 2019-08-19

'機器學習10種經典算法的Python實現'

"廣義來說，有三種機器學習算法1、監督式學習工作機制：這個算法由一個目標變量或結果變量（或因變量）組成。這些變量由已知的一系列預示變量（自變量）預測而來。利用這一系列變量，我們生成一個將輸入值映射到期望輸出值的函數。這個訓練過程會一直持續，直到模型在訓練數據上獲得期望的精...

算法機器學習 Python 隨機森林不完美媽媽 2019-08-18

'來！一起捋一捋機器學習分類算法'

"大數據文摘出品來源：builtin編譯：邢暢、劉兆娜、李雷、錢天培說起分類算法，相信學過機器學習的同學都能侃上一二。可是，你能夠如數家珍地說出所有常用的分類算法，以及他們的特徵、優缺點嗎？比如說，你可以快速地回答下面的問題麼:KNN算法的優缺點是什麼？Naive Baye...

算法機器學習大數據技術歐幾里得信用卡程序設計 2019-08-12

'GitHub標星2.6萬！Python算法新手入門大全'

"幾個印度小哥，在GitHub上建了一個各種Python算法的新手入門大全，現在標星已經超過2.6萬。這個項目主要包括兩部分內容：一是各種算法的基本原理講解，二是各種算法的代碼實現。傳送門在此：https://github.com/TheAlgorithms/Python簡...

Python 算法 GitHub 機器學習隨機森林 Scala Java 印度雞尾酒人工智能 2019-08-12

'新手必看的Top10個機器學習算法（這些都學會了你就是老手了）'

"作者：James Le編譯：ronghuaiyang導讀總共有多少機器學習的模型？不知道，沒人統計過，如果加上各種變體的話，那就更加多了去了。想到這個，你頭大不大？那是不是所有都要去學，都要去了解呢？當然不是，不過，下面的這10個算法，如果你是新手的話，一定要去好好學學，...

算法機器學習技術人工智能數據結構吸塵器 2019-08-09

'真正支配整個世界的十種算法'

"本文轉自： InfoQ，作者：Marcos Otero，頭圖來自：攝圖網。前幾天，我在 Reddit 上面閒逛的時候，發現了一篇有趣的文章，名為《影響我們世界的十大算法》。作者 George Dvorsky 希望通過此文解釋算法在當今世界上的重要意義，以及哪些算法為我們...

算法約瑟夫·傅里葉電腦文章網絡安全 Facebook 算術智能手機人工智能數學數據挖掘 2019-08-09

'圖論與圖學習（二）：圖算法'

"選自towardsdatascience作者：Maël Fabien機器之心編譯參與：熊貓圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maë...

算法 Python 機器學習 GitHub 社交網絡 Neo4J 維基百科信息檢索文章 2019-08-07

'集成聚類系列（三）圖聚類算法詳解'

"圖聚類算法研究現狀聚類分析是一種常用的機器學習技術，它的目的是將一個數據點劃分為幾個類。同一個類的數據之間具有較高的相似性，不同的類之間的相似度較低。很多研究已表明圖聚類是一種極具競爭力的聚類算法，圖聚類是一種基於圖劃分理論的算法。與其他聚類算法相比，圖聚類算法有些明顯的...

算法機器學習技術 2019-08-05

推薦中...

常用數據挖掘算法從入門到精通 第十一章 支持向量機算法

結構風險最小化(Structural Risk Minimization，SRM）

分類問題的數學表示

分類問題的學習方法

線性可分情形：最大間隔原理

近似線性可分情形

線性不可分情形

核函數K(xi,xj)

相關推薦

常用數據挖掘算法從入門到精通第十一章支持向量機算法