6步驟帶你瞭解樸素貝葉斯分類器（含Python和R語言代碼）

Python 機器學習編程語言 R語言機器人網JQRcom 機器人網JQRcom 2017-10-14

本文最初由Sunil Ray發表於2015年9月13日，作者於2017年9月進行了更新。

假設你正在處理一個分類問題，你已經形成了一些假設，建立了一套特徵並且確定了各變量的重要性。你的數據集中有一大堆數據點，但是隻有很少的變量，而你的上司希望你能在一小時內給出預測數據，你會怎麼辦？

如果我是你，我會用樸素貝葉斯分類器。相比較其他分類方法，樸素貝葉斯簡單高效，適合預測未知類數據集。

在這篇文章中，我將解釋該算法的基礎知識，如果你是Python和R語言的新手，下次你遇到大型數據集，你就能學以致用。

什麼是樸素貝葉斯算法？

樸素貝葉斯分類器是一種基於貝葉斯定理的弱分類器，所有樸素貝葉斯分類器都假定樣本每個特徵與其他特徵都不相關。舉個例子，如果一種水果其具有紅，圓，直徑大概3英寸等特徵，該水果可以被判定為是蘋果。儘管這些特徵相互依賴或者有些特徵由其他特徵決定，然而樸素貝葉斯分類器認為這些屬性在判定該水果是否為蘋果的概率分佈上獨立的。

樸素貝葉斯分類器很容易建立，特別適合用於大型數據集，眾所周知，這是一種勝過許多複雜算法的高效分類方法。

貝葉斯公式提供了計算後驗概率P(X|Y)的方式：

6步驟帶你瞭解樸素貝葉斯分類器（含Python和R語言代碼）

其中，

P(c|x)是已知某樣本(c，目標)，(x，屬性)的概率。稱後驗概率。
P(c)是該樣本“c”的概率。稱先驗概率。
P(x|c)是已知該樣本“x”，該樣本“c”的概率。
P(x)是該樣本“x”的概率。

樸素貝葉斯算法的分類流程

讓我舉一個例子。下面我設計了一個天氣和響應目標變量“玩”的訓練數據集（計算“玩”的可能性）。我們需要根據天氣條件進行分類，判斷這個人能不能出去玩，以下是步驟：

步驟1：將數據集轉換成頻率表；

步驟2：計算不同天氣出去玩的概率，並創建似然表，如陰天的概率是0.29；

6步驟帶你瞭解樸素貝葉斯分類器（含Python和R語言代碼）

步驟3：使用貝葉斯公式計算每一類的後驗概率，數據最高那欄就是預測的結果。

問題：如果是晴天，這個人就能出去玩。這個說法是不是正確的？

P(是|晴朗)=P(晴朗|是)×P(是)/P(晴朗)

在這裡，P(晴朗|是)= 3/9 = 0.33，P(晴朗)= 5/14 = 0.36，P(是)= 9/14 = 0.64

現在，P(是|晴朗)=0.33×0.64/0.36=0.60，具有較高的概率。

樸素貝葉斯適合預測基於各屬性的不同類的概率，因此在文本分類上有廣泛應用。

樸素貝葉斯的優缺點

優點：

既簡單又快速，預測表現良好；
如果變量獨立這個條件成立，相比Logistic迴歸等其他分類方法，樸素貝葉斯分類器性能更優，且只需少量訓練數據；
相較於數值變量，樸素貝葉斯分類器在多個分類變量的情況下表現更好。若是數值變量，需要正態分佈假設。

缺點:

如果分類變量的類別（測試數據集）沒有在訓練數據集總被觀察到，那這個模型會分配一個0（零）概率給它，同時也會無法進行預測。這通常被稱為“零頻率”。為了解決這個問題，我們可以使用平滑技術，拉普拉斯估計是其中最基礎的技術。
樸素貝葉斯也被稱為bad estimator，所以它的概率輸出predict_proba不應被太認真對待。
樸素貝葉斯的另一個限制是獨立預測的假設。在現實生活中，這幾乎是不可能的，各變量間或多或少都會存在相互影響。

樸素貝葉斯的4種應用

實時預測：毫無疑問，樸素貝葉斯很快。

多類預測：這個算法以多類別預測功能聞名，因此可以用來預測多類目標變量的概率。

文本分類/垃圾郵件過濾/情感分析：相比較其他算法，樸素貝葉斯的應用主要集中在文本分類（變量類型多，且更獨立），具有較高的成功率。因此被廣泛應用於垃圾郵件過濾（識別垃圾郵件）和情感分析（在社交媒體平臺分辨積極情緒和消極情緒的用戶）。

推薦系統：樸素貝葉斯分類器和協同過濾結合使用可以過濾出用戶想看到的和不想看到的東西。

如何建立樸素貝葉斯的基本模型（Python和R）

scikit learn裡有3種樸素貝葉斯的模型：

高斯模型：適用於多個類型變量，假設特徵符合高斯分佈。

多項式模型：用於離散計數。如一個句子中某個詞語重複出現，我們視它們每個都是獨立的，所以統計多次，概率指數上出現了次方。

伯努利模型：如果特徵向量是二進制（即0和1），那這個模型是非常有用的。不同於多項式，伯努利把出現多次的詞語視為只出現一次，更加簡單方便。

你可以根據特定數據集選取上述3個模型中的合適模型。下面我們以高斯模型為例，談談怎麼建立：

Python

 #Import Library of Gaussian Naive Bayes model from sklearn.naive_bayes import GaussianNB import numpy as np #assigning predictor and target variables x= np.array([[-3,7],[1,5], [1,2], [-2,0], [2,3], [-4,0], [-1,1], [1,1], [-2,2], [2,7], [-4,1], [-2,7]]) Y = np.array([3, 3, 3, 3, 4, 3, 3, 4, 3, 4, 4, 4])

 #Create a Gaussian Classifier model = GaussianNB() # Train the model using the training sets model.fit(x, y) #Predict Output predicted= model.predict([[1,2],[3,4]]) print predicted Output: ([3,4])

 require(e1071) #Holds the Naive Bayes Classifier Train <- read.csv(file.choose()) Test <- read.csv(file.choose()) #Make sure the target variable is of a two-class classification problem only levels(Train$Item_Fat_Content) model <- naiveBayes(Item_Fat_Content~., data = Train) class(model) pred <- predict(model,Test) table(pred)

關於樸素貝葉斯分類器的幾個黑科技

以下是一些小方法，可以提升樸素貝葉斯分類器的性能：

如果連續特徵不是正態分佈的，我們應該使用各種不同的方法將其轉換正態分佈。
如果測試數據集具有“零頻率”的問題，應用平滑技術“拉普拉斯估計”修正數據集。
刪除重複出現的高度相關的特徵，可能會丟失頻率信息，影響效果。
樸素貝葉斯分類在參數調整上選擇有限。我建議把重點放在數據的預處理和特徵選擇。
大家可能想應用一些分類組合技術如ensembling、bagging和boosting，但這些方法都於事無補。因為它們的目的是為了減少差異，樸素貝葉斯沒有需要最小化的差異。

小結

感謝你耐心讀到了這裡，如果已經瞭解了文章內容，接下來你需要的是實踐。在使用樸素貝葉斯分類器前，希望你能在數據預處理和特徵選擇上多花一些精力。

相關推薦

'一文帶你瞭解爬蟲'

"前段時間我媽突然問我：兒子，爬蟲是什麼？我當時既驚訝又尷尬，驚訝的是為什麼我媽會對爬蟲好奇？尷尬的是我該怎麼給她解釋呢？一、爬蟲介紹1.爬蟲是什麼網絡爬蟲(web crawler 簡稱爬蟲)就是按照一定規則從互聯網上抓取信息的程序，既然是程序那和正常用戶訪問頁面有何區別？...

網絡爬蟲搜索引擎 Python 百度搜狗 Java 軟件 PHP 跳槽那些事兒 Linux Google 人生第一份工作騰訊 MySQL 中國鐵路客戶服務中心雅虎金山軟件 Perl 海豚美團網 Bing 天貓淘寶網 Ruby 螞蟻金服蟒蛇創業企鵝 2019-09-19

'圖解Numpy精翻版，一文帶你入門Python數據處理'

"本文精心翻譯自Jay Alammar的博客：https://jalammar.github.io/visual-numpy/，其用圖解的方式詳細介紹了 NumPy的功能和使用示例。NumPy 是 Python 生態中數據分析、機器學習和科學計算的基礎。它極大地簡化了向量和...

Python 機器學習算術數據結構廣播 2019-09-13

'Python Django帶你構建Web應用，13個常見問題彙總'

"1、django+python27+mysql的生產環境，想換成python3，請問需要哪些注意事項？生產環境數據不想被破壞，所以不敢輕易下手，希望大神指點一下？關於python升級：可以使用Python3自帶工具2to3，將python2的代碼轉換為python3。少部...

Django Python MySQL 數據庫 Java 腳本語言 C語言軟件中央處理器 2019-09-07

'還在糾結學Python還是Java？8張圖帶你全面對比分析，幫你解讀'

"Java和Python兩門語言都是目前非常熱門的語言，可謂北喬峰南慕容，二者不分上下，棋逢對手。但是對於初學者來說，非常困惑，因為時間和精力有限，上手必須要先學一門，到底選那個好呢，今天3分鐘帶你透徹瞭解。1.運行速度Java是靜態語言靜態編譯的，速度上要比Python快...

Python Java 數據庫人工智能工程師機器學習 Android Node.js 人生第一份工作大數據 Kotlin MongoDB 程序員網絡爬蟲 Redis 2019-09-07

'Python成高收入國家增長最快語言，你動心了嗎？'

"根據Stack Overflow流量分析了Python及其他一些編程語言的發展情況，同時也對高收入國家與非高收入國家的情況進行了對比。我們最近的研究表明，富裕國家（世界銀行定義為高收入國家）喜歡研究的技術與其他國家的不同。其中，我們看到最大的差異是Python語言。當我們...

Python 泛函編程 0verflow Stack Overflow 編程語言 Java Android Swift語言 Scala Linux iOS HTML 軟件 Perl Flash Clojure Haskell jQuery CSS Objective-C R語言 Ruby Windows 英國文章技術 Rust PHP 2019-09-06

'零基礎Python學習路線圖，Python初學者必須要了解，讓你少走彎路'

"近幾年Python的受歡迎程度可謂是扶搖直上，當然了學習的人也是愈來愈多。一些學習Python的小白在學習初期，總希望能夠得到一份Python學習路線圖，小編經過多方彙總為大家彙總了一份Python學習路線圖。對於一個零基礎的想學習python的朋友來說，學習方法很重要，...

Python 網絡爬蟲 Linux 人生第一份工作算法數據結構人工智能數據庫機器學習 Redis CSS MySQL jQuery Scrapy Git JavaScript 設計 2019-09-06

'Visual Studio Code 開發 Python，這幾個擴展你應該瞭解'

"Visual Studio Code 是微軟出品的極優秀的代碼編輯工具，具有強大的高亮語法提示功能，方便的調試功能，內置集成 Git 命令。在保持核心功能小巧的同時，更是提供了插件擴展能，利用強大的擴展自定義能實現 VSCode 的 N 種可能！本文針對 Python 開...

Python Microsoft Visual Studio Flask 微軟 Django TypeScript 2019-09-02

'零基礎轉行Python你確定不瞭解一下嗎？文末附全套python教程'

"這一兩年Python在業內大火，我一直思考原因是為什麼，除了雲計算幫Python帶了一波節奏外，還有沒有其它原因呢?必然有，我認為還有一個主要原因就是近幾點互聯網創業熱情高漲。時間就是金錢，大家恨不得今天剛有了idea,明天產品就能上線，產品晚上線一個月，可能戰爭就跟你...

Python 編程語言雲計算技術 Django 人工智能 Java 網絡爬蟲 MATLAB C語言網絡遊戲 Lua Flask Scala 創業軟件 Facebook 大數據人生第一份工作金融程序員中央處理器腳本語言 2019-09-02

'建議看一下，零基礎學Python都想問的6個問題，老司機給你解答'

"最近想學習Python的小夥伴們也越來越多，很多都是零基礎的同學，非常捉急，想學Python，有很多問題想問，我覺得這些內容非常有用，希望能幫助到更多的小夥伴！問題一：Python怎麼學？Python雖然號稱非常簡單，功能強大！但是再簡單，它也是一門編程語言，任何一個編程...

Python 數據庫 Linux 編程語言技術 Java 人工智能人生第一份工作 Excel 算法 JavaScript Git Ruby 黑客 Perl 數據結構網絡爬蟲西瓜可視化技術網絡硬盤跳槽那些事兒 2019-09-02

'程序員：你聽我解釋！Python：我不聽！我不聽！你根本不瞭解我'

"現在很多人想學習Python卻沒有很好的途徑，我這裡的話整理了一些關於Python的學習資料，從入門基礎到實戰項目都有，有需要的朋友可以關注並私信我“01”免費獲取~~~~在1991年，荷蘭人Guido van Rossum ，他發明了 Python，語法選擇的靈感來源自...

Python 程序員 Java 編程語言六貫棋 Guido 2019-08-29

'C語言是如何轉換成彙編語言的？6個步驟帶你解析'

"大家都知道計算機只能處理和識別二進制指令，而我們利用各種高級編程語言所編寫的程序，要經過一些列的處理步驟，最終轉變為彙編指令，再最後轉變為機器指令。C語言以上這些轉變是如何發生的就屬於大名鼎鼎的“編譯原理”所研究的範疇，作為計算機專業學生，它的重要性毫無質疑，自然也是必修...

彙編語言 C語言編程語言電腦中央處理器技術程序員程序設計 2019-08-28

'知乎大佬總結的100天學習路線，100天帶你從Python新手到大師'

"Python應用領域和就業形勢分析簡單的說，Python是一個“優雅”、“明確”、“簡單”的編程語言。學習曲線低，非專業人士也能上手開源系統，擁有強大的生態圈解釋型語言，完美的平臺可移植性支持面向對象和函數式編程能夠通過調用C/C++代碼擴展功能代碼規範程度高，可讀性強目...

Python 知乎工程師 Linux 網絡爬蟲 Java Scala DevOps 斐波那契 C語言 2019-08-27

'疑惑？人工智能興起為什麼帶火了Python，看完這篇你就明白了'

"人工智能（縮寫為AI）在計算機領域內，得到了愈加廣泛的重視。並在機器人，經濟政治決策，控制系統，仿真系統中得到應用。人工智能上電視著名的美國斯坦福大學人工智能研究中心尼爾遜教授對人工智能下了這樣一個定義：“人工智能是關於知識的學科――怎樣表示知識以及怎樣獲得知識並使用知識...

Python 人工智能電腦 C語言麻省理工學院工程師腳本語言機器人算法網絡爬蟲斯坦福大學政治經濟 2019-08-25

'乾貨 | 十分鐘帶你從入門到進階python爬蟲'

"程序員的戀愛保證書1、對你不離不棄，憐惜你，心疼你，保護你2、做你的趴耳朵，不和你爭吵，不對你發脾氣3、做你的妻管嚴，對你死心塌地，始終如一，絕不三心二意4、一起做家務，一起逛菜市場，一起討價還價，一起做飯，學會做可口的飯菜一、基礎入門1.1什麼是爬蟲爬蟲(spider，...

Python 網絡爬蟲程序員瀏覽器 XML HTML 數據庫 JSON CSS Redis 技術 MySQL 2019-08-23

'清華教授總結的100天快速學習路線，100天帶你從Python新手到大師'

Python 工程師清華大學 Linux 網絡爬蟲 Scala Java 斐波那契 DevOps C語言 LISP 2019-08-22

'轉行IT編程選哪種語言？12條優勢告訴你必須選python'

"作為新手，在面對廣泛應用於企業級應用開發的 Java、遊戲客戶端開發的 C++、嵌入式開發的 C、人工智能領域的 Python 等數百種編程語言時，你會如何選擇自己的第一門編程語言？剛入行的程序員總是詢問他們應該從哪種語言開始，我告訴他們，他們應該首先學習 Python。...

Python 程序員編程語言人工智能 Linux Java 工程師算法 YouTube 跳槽那些事兒 Dropbox 物聯網讀書硬件操作系統 Swift語言 2019-08-22

'人生苦短，我用Python，助你入門，帶你入坑……'

"Python的確挺神的~但不是生來就那麼神。Python是在1991年被創造出來的，但真正開始被廣泛使用是Python 2.6以後的事情了。從2012年開始到現在，Python的熱度持續累積，成為關注度增長最快的語言。由於Python在設計上堅持清晰劃一的風格，這使得Py...

Python 數據庫算法網絡爬蟲 Linux 人工智能 MongoDB CSS Scrapy Redis 數據結構 JavaScript SQL 設計操作系統設計模式 jQuery HTML5 Flask 泛函編程 NoSQL MySQL 工程師 2019-08-19

'阿里大佬總結的100天學習路線，100天帶你從Python新手到IT精英'

"附贈100天的哪吒學編程效果圖！！簡單的說，Python是一個“優雅”、“明確”、“簡單”的編程語言。學習曲線低，非專業人士也能上手開源系統，擁有強大的生態圈解釋型語言，完美的平臺可移植性支持面向對象和函數式編程能夠通過調用C/C++代碼擴展功能代碼規範程度高，可讀性強目...

Python 工程師 Linux 網絡爬蟲斐波那契 Scala DevOps Java C語言 LISP 2019-08-19

'你真的瞭解Python嗎？*args、**kwargs有什麼用？'

"引言使用Python做日常開發中，經常能看到*args、**kwargs使用，如裝飾器啊、Python模塊源碼都能找到*args、**kwargs方法，如：關於Python *args、**kwargs的使用，它有什麼作用，你真的瞭解嗎？使用說明*args與**kwarg...

Python 2019-08-19

推薦中...