集成算法系列之初識

機器學習 隨機森林 科技 萌新之機器學習 2017-03-29

一、集成算法簡介

集成算法,即構建多個個體學習器,並基於某種結合策略綜合個體學習器的學習效果,進而完成學習任務。個體學習器就是基於現有的算法生成的模型。以上一篇文章《分類算法系列之隨機森林》為例,隨機森林是集成算法的典型代表,基於多組隨機樣本集合生成多棵決策樹,即個體學習器,最後的模型輸出就是綜合了所有個體學習器決策樹的結果。以下是集成算法的結構圖:

集成算法系列之初識

根據個體學習器生成方式的不同,集成算法可分成兩類。第一類集成算法的代表是boosting,各個個體學習器之間存在強依賴關係,是通過串行方式生成的;第二類集成算法的代表是bagging,各個個體學習器之間不存在強依賴關係,可並行生成。

二、Boosting算法

Boosting算法的基本思想:基於訓練樣本生成一個個體學習器,然後基於個體學習器的表現調整樣本分佈,即增加錯誤樣本的權重,使其在後續受到更多關注,基於調整好權重的訓練集繼續生成下一個個體學習器,不斷循環,直到生成一定數量的個體學習器,最後基於某種結合策略來綜合這多個個體學習器的輸出。boosting算法的典型代表是Adaboost,小編會在下一篇進行說明。

集成算法系列之初識

三、Bagging算法

Bagging算法的基本思想:給定含n個樣本的訓練樣本集,基於有放回的抽樣生成T個含n個樣本的訓練樣本集合,然後基於這T個樣本集合訓練生成T個個體學習器,最後基於某種結合策略來綜合這T個個體學習器的輸出。Bagging算法的典型代表是隨機森林,詳見《分類算法系列之隨機森林》。

集成算法系列之初識

相關推薦

推薦中...