常用數據挖掘算法從入門到精通第五章貝葉斯分類算法

機器學習數據挖掘科技小AI諮詢小AI諮詢 2017-08-27

本文主要講述貝葉斯分類算法並附有詳細的案例幫助大家理解。

分類分析

分類分析是一種有監督的機器學習方法。主要解決的問題是利用訓練樣本集獲得分類函數或分類模型。分類模型能很好的擬合訓練樣本集中屬性集與類別之間的關係，也可以預測一個新樣本屬於哪一類。

第二章到第四章講的聚類分析是不知道數據點的類別標籤，需要自己自動分出類來，簡單說就是一堆東西混到一起了，你要把它們區分開來誰和誰是一類的。

分類分析是本身已經知道每個數據點屬於哪個類，它的任務是找到最佳的分類方法，也就是在這種分類方法下分類的分類效果是最佳的，比如，分類錯誤發生的概率最小，或在最小風險下進行分類決策等。

常用數據挖掘算法從入門到精通第五章貝葉斯分類算法

分類

貝葉斯概率—主觀概率

貝葉斯方法是一種研究不確定性的推理方法。不確定性常用貝葉斯概率表示，它是一種主觀概率。通常的經典概率代表事件的物理特性，是不隨人意識變化的客觀存在，而貝葉斯則是人的認識，是個人主觀的估計，隨個人主觀認識的變化而變化。例如，一個投資者認為“購買某種股票能獲得高收益”的概率是0.6，這裡的0.6是投資者根據自己多年股票生意經驗和當時股票行情綜合而成的個人信念。

貝葉斯概率是主觀的，對其估計取決於先驗知識的正確和後驗知識的豐富和準確。因此貝葉斯概率常常可能隨個人掌握信息的不同而發生變化。

概率基礎知識

關於概率方面的更多詳細知識，可以查看作者之前的一篇文章《想要學人工智能，你必須得先懂點統計學（3）概率與概率分佈》。

聯合概率：設A，B是兩個隨機事件，A和B同時發生的概率稱為聯合概率，記為：P(AB)

條件概率：在B事件發生的條件下，A事件發生的概率稱為條件概率，記為：P(A|B)，P(A|B) = P(AB) / P(B)

乘法定理：P(AB) = P(B)P(A|B) = P(A)P(B|A)

先驗概率 P(wi)

由樣本的先驗知識得到先驗概率，可從訓練集樣本中估算出來。之所以稱為“先驗”是因為它不考慮任何其他方面的因素。

例如，兩類10個訓練樣本，屬於w1為2個，屬於w2為8個，則先驗概率P(w1) = 0.2，P(w2) = 0.8。

類條件概率 p(x|wi)

在wi類發生的條件下，樣本x出現的概率。

後驗概率P(wi|x)

對於某個樣本 x, 屬於wi 類的概率, i=1,···,c。

如果用先驗概率P(wi) 來確定待分樣本x的類別, 依據顯然是非常不充分的，須用類條件概率密度p(x|wi)來修正。
根據樣本 x 的先驗概率和類條件概率密度函數p(x|wi) 用Bayes公式重新修正模式樣本所屬類的概率，稱為後驗概率P(wi|x)

Bayes 決策理論

用Bayes決策理論分類時要求：

各類總體的概率分佈是已知的
要決策的類別數c是一定的

Bayes公式，也稱Bayes法則

常用數據挖掘算法從入門到精通第五章貝葉斯分類算法

貝葉斯公式

Bayes分類規則：用後驗概率分類

常用數據挖掘算法從入門到精通第五章貝葉斯分類算法

貝葉斯分類規則

貝葉斯分類案例

常用數據挖掘算法從入門到精通第五章貝葉斯分類算法

購買汽車的顧客訓練集

計算先驗概率和類條件概率

常用數據挖掘算法從入門到精通第五章貝葉斯分類算法

先驗概率和類條件概率

計算後驗概率

常用數據挖掘算法從入門到精通第五章貝葉斯分類算法

後驗概率

因為P(是|X)>P(否|X)，由此可見，對於樣本X，樸素貝葉斯分類預測該顧客會購買汽車。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'「知識」圖論與圖學習（二）：圖算法'

"圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maël Fabien 在其博客上發佈了涉及圖論、圖算法和圖學習的系列文章《圖論與圖學習》。本文...

算法機器學習社交網絡 Python Neo4J 維基百科文章信息檢索 2019-09-14

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'2019WAIC 算法產業化落地，思必馳劍指AI語音未來'

"前沿算法探索和實踐不僅是純學術性的研究，更是引領人工智能產業化落地方的風向標，前沿算法的產業化落地變得尤為重要。人工智能60多年的發展歷程中，算法一直推動學術和產業向前發展的核心力量。今天，人工智能已經從價值驗證期走向規模化落地期。2019世界人工智能大會於8月29-31...

算法 2019世界人工智能大會技術人工智能語音識別技術機器人耳機硬件智能硬件人機交互音箱機器學習上海餐飲 2019-09-12

'程序員的靈魂！算法'

"寫作有金線，金線之上，作家的文字才可能會被流傳下來。編程也是一樣，卓越的程序員和普通程序員之間也有一條看不見的金線，金線之上的程序員，才能做出更具規模，更有創新，更優性能，更智能的軟件和服務。這條金線是什麼呢？數據結構和算法。每個程序員都知道數據結構和算法的重要性，但是真...

算法程序員工程師數據結構數學機器學習編程語言人工智能技術程序設計電腦推薦技術人生第一份工作 2019-09-12

'機器學習之誤差反向傳播算法'

"機器學習之誤差反向傳播算法我們知道神經網絡是由大量的參數即權重構成，神經網絡的學習過程則是這些參數的變化更新過程。誤差反向傳播算法就是用於更新這些參數的。這裡我們假設激活函數為Sigmoid。Ps: 在吳恩達機器學習反向傳播算法課程中，而不是：這是因為吳恩達中使用的損失...

機器學習算法吳恩達人工智能 2019-09-09

'今天的內容你可能看不懂，全是關於AI算法的終極討論'

"人工智能下一站是哪裡？深度學習還能紅多久？全球最頂尖的科學家，共論AI的未來。他們的眼光，越過當下，落在那個AI與人類共存的未來。數據、算法、算力，人工智能三要素。如果說數據和算力是必要條件，決定了AI的過去，那麼算法作為“靈魂”，定義了AI的未來。自人工智能概念被提出6...

人工智能算法深度學習機器學習電腦技術加拿大周志華語音識別技術大學卡內基梅隆大學讀書高能小子終極裝備人生第一份工作 2019-09-07

'十個算法，能讓程序員浪跡編程界，你信不信？附教程分享'

"什麼是算法？簡而言之，任何定義明確的計算步驟都可稱為算法，接受一個或一組值為輸入，輸出一個或一組值。可以這樣理解，算法是用來解決特定問題的一系列步驟（不僅計算機需要算法，我們在日常生活中也在使用算法）。算法必須具備如下3個重要特性：有窮性，執行有限步驟後，算法必須中止。確...

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎智能手機數據挖掘 Linkedin 殺毒軟件瀏覽器 Wi-Fi 人工智能 YouTube 社交網絡 2019-09-07

'機器學習在ABR算法中的應用縱覽'

"本文整理自LiveVideoStack線上分享第三季，第五期，由清華大學計算機系網絡技術研究所博士生王莫為為大家介紹近些年ABR算法的發展，探討基於機器學習的ABR算法的優劣勢，並結合AiTrans比賽分析其在直播場景中的應用問題。文/王莫為整理/LiveVideoSta...

算法機器學習技術深度學習愛奇藝清華大學 YouTube 創作者來直播人工智能歷史 2019-09-07

'影響未來的十大算法之一：機器學習與數據挖掘的PageRank算法'

"由於公司架構調整和業務方向的轉變，我所在的項目組即將接手一個機器學習和數據挖掘的項目，為了後續更好地開展工作，也為了能提高自己的專業技能，我決定開始學習機器和數據挖掘方面的知識。那麼，問題就來了：到底應該從哪裡開始學起呢？最開始我也買了一些機器學習相關的入門書籍，跟著聽一...

算法機器學習數據挖掘 Google 拉里·佩奇斯坦福大學 Python 發現佩奇在線教育 2019-09-03

'揭祕人工智能深度學習算法的奧祕'

"話說當前最熱門的技術是什麼？我想非人工智能莫屬。雖說大導演斯皮爾伯格在2001年就拍攝了好萊塢大片《人工智能》，但他怎麼又能想到十幾年後人類在人工智能領域紮紮實實得走出了一大步——以阿爾法機器人為代表的人工智能橫空出世，在圍棋上戰勝了人類最強棋手。具備學習思考能力的機器人...

人工智能深度學習算法電腦機器學習技術機器人九陽神功文章 2019-09-03

'作為一名程序員必知必會的十個算法，附教程分享，網友：實用'

算法程序員 Google+ Google 電腦網絡安全技術 Facebook 數學搜索引擎 Linkedin YouTube 數據挖掘 Wi-Fi 智能手機殺毒軟件瀏覽器人工智能社交網絡歷史 2019-08-28

'這應該是全網最全的 Python 算法集！（附415集全套教程分享）'

"本文較長，建議大家仔細閱讀！2019年最新python教程如果你處於想學python或者正在學習python，那麼你的python教程應該不少了吧，但是是最新的嗎？說不定你學的可能是兩年前人家就學過的內容，在這小編分享一波2019最新的python全套教程最後小編為大家準...

Python 算法腳本語言卡爾·高斯 GPS 讀書機器學習 GitHub 機器人工程師 2019-08-19

'機器學習10種經典算法的Python實現'

"廣義來說，有三種機器學習算法1、監督式學習工作機制：這個算法由一個目標變量或結果變量（或因變量）組成。這些變量由已知的一系列預示變量（自變量）預測而來。利用這一系列變量，我們生成一個將輸入值映射到期望輸出值的函數。這個訓練過程會一直持續，直到模型在訓練數據上獲得期望的精...

算法機器學習 Python 隨機森林不完美媽媽 2019-08-18

'來！一起捋一捋機器學習分類算法'

"大數據文摘出品來源：builtin編譯：邢暢、劉兆娜、李雷、錢天培說起分類算法，相信學過機器學習的同學都能侃上一二。可是，你能夠如數家珍地說出所有常用的分類算法，以及他們的特徵、優缺點嗎？比如說，你可以快速地回答下面的問題麼:KNN算法的優缺點是什麼？Naive Baye...

算法機器學習大數據技術歐幾里得信用卡程序設計 2019-08-12

'GitHub標星2.6萬！Python算法新手入門大全'

"幾個印度小哥，在GitHub上建了一個各種Python算法的新手入門大全，現在標星已經超過2.6萬。這個項目主要包括兩部分內容：一是各種算法的基本原理講解，二是各種算法的代碼實現。傳送門在此：https://github.com/TheAlgorithms/Python簡...

Python 算法 GitHub 機器學習隨機森林 Scala Java 印度雞尾酒人工智能 2019-08-12

'新手必看的Top10個機器學習算法（這些都學會了你就是老手了）'

"作者：James Le編譯：ronghuaiyang導讀總共有多少機器學習的模型？不知道，沒人統計過，如果加上各種變體的話，那就更加多了去了。想到這個，你頭大不大？那是不是所有都要去學，都要去了解呢？當然不是，不過，下面的這10個算法，如果你是新手的話，一定要去好好學學，...

算法機器學習技術人工智能數據結構吸塵器 2019-08-09

'真正支配整個世界的十種算法'

"本文轉自： InfoQ，作者：Marcos Otero，頭圖來自：攝圖網。前幾天，我在 Reddit 上面閒逛的時候，發現了一篇有趣的文章，名為《影響我們世界的十大算法》。作者 George Dvorsky 希望通過此文解釋算法在當今世界上的重要意義，以及哪些算法為我們...

算法約瑟夫·傅里葉電腦文章網絡安全 Facebook 算術智能手機人工智能數學數據挖掘 2019-08-09

'圖論與圖學習（二）：圖算法'

"選自towardsdatascience作者：Maël Fabien機器之心編譯參與：熊貓圖（graph）近來正逐漸變成機器學習的一大核心領域，比如你可以通過預測潛在的連接來理解社交網絡的結構、檢測欺詐、理解汽車租賃服務的消費者行為或進行實時推薦。近日，數據科學家 Maë...

算法 Python 機器學習 GitHub 社交網絡 Neo4J 維基百科信息檢索文章 2019-08-07

'集成聚類系列（三）圖聚類算法詳解'

"圖聚類算法研究現狀聚類分析是一種常用的機器學習技術，它的目的是將一個數據點劃分為幾個類。同一個類的數據之間具有較高的相似性，不同的類之間的相似度較低。很多研究已表明圖聚類是一種極具競爭力的聚類算法，圖聚類是一種基於圖劃分理論的算法。與其他聚類算法相比，圖聚類算法有些明顯的...

算法機器學習技術 2019-08-05

推薦中...

常用數據挖掘算法從入門到精通 第五章 貝葉斯分類算法

分類分析

貝葉斯概率—主觀概率

概率基礎知識

Bayes 決策理論

貝葉斯分類案例

相關推薦

常用數據挖掘算法從入門到精通第五章貝葉斯分類算法