基因芯片小知識(六)——分類預測的模型(二)

上期介紹了常用到的分類預測模型,包括混合協變量分類模型(Compound Covariate Predictor)、對角線線性判別分類模型(Diagonal Linear Discriminant Analysis)、最鄰分類模型(Nearest Neighbor Predictor)、最鄰質心分類模型(Nearest Centroid Predictor)和支持向量機分類模型(Support Vector Machine Predictor)。

這期再為大家介紹其他的6種經典模型。

1. 二叉樹預測(Binary tree prediction)

二叉樹預測是另一種能夠用於多組分類的算法。先前介紹的混合協變量分類、對角線線性判別分類、最鄰分類、最鄰質心分類和支持向量機分類是二叉樹預測的基礎算法。

二叉樹預測與先前標準的分類模型的主要區別在於分析三組以上分類的條件下有所不同。二叉樹方法並不試圖一步就能完成預測分類,而是在樹的每個節點上把樣本分為兩個子集。

子集可以包含一個或多組樣本分類。

各種分類算法可被用於構建這兩個子集的分類模型。在每個節點分割樣本的要求是分割後的子集能擁有最小的交叉驗證錯判率。所有可能的分割方式都被逐一測試,最好的那種(即最小錯判率)被選中作為二叉樹的節點。

如果該節點的最小錯判數仍大於指定的閾值,該分割則無效。此時,分類模型就不再分組該類樣本。過程中,產生的兩類樣本不斷重複逐一測試,直到每個子集只含一個樣本或者再分類時的交叉驗證錯判率大於閾值。

目前還需要更多的研究來比較二叉樹預測相對於其它應用於基因芯片數據的“一步式”的預測算法(one-step prediction algorithms)的優缺點。

2.PAM預測(Prediction Analysis for Microarrays)

PAM是除了上述方法之外的另一種分類預測方法。該方法使用了由Tibshirani等人開發的收縮質心算法(PNAS 99:6567-6572, 2002)。

該方法與先前介紹的最近鄰質心法相似,不同的是每組的質心是通過收縮互相每組的每個基因相對於總體均值來計算的。收縮程度由名為delta的“調節參數”決定。

收縮發生時,由於某些基因在不同組間的收縮值均值相同,而這些基因不會對分類有所影響。

設置較大的delta,會產生較少的具有不同的收縮均值的基因,因此就會基於這些少量的基因來構建分類模型,即delta的值決定構建模型的基因數。

算法提供了在所有delta的取值中k-折交叉驗證預測誤差的估計,其中k為最小組別的大小。

最終給出對應於最小交叉驗證預測誤差的delta值和用於構建模型的基因。然而,最優化delta的選擇過程其實是分類算法的步驟之一,應該包括在交叉驗證中,所以這種在不同delta取值範圍上選擇交叉驗證預測誤差最小的delta值在某種程度上可能對於應用其它新數據的分類存在有偏估計。

但如果在delta和交叉驗證誤差率兩者的相關圖中,曲線比較平緩,那麼偏差將不大,可以忽略偏差。

3.隨機森林(Random forest)

隨機森林是Leo Breiman開發的一種預測分類的方法(Breiman L,Random forest,Machine Learning,45(1):5-32,2001)。

它基於決策樹集合的多數投票來進行預測。單個決策樹往往是不穩定的,不能提供穩定的預測。而通過許多樹的預測,隨機森林方法能更加穩定,且與其他分類器相比具有更好的性能。

然而,隨機森林模型過程是很難解釋清楚的黑箱,因為涉及到大量的決策樹,每個都使用不同的基因集。隨機森林的調整參數是樹的數量和用於分裂的隨機採樣的基因數量。

4.最高分配對(Top Scoring Pair Class Prediction)

“最高分配對”預測由Geman及其同事開發的方法,用來尋找能最好的進行組別分組的配對基因[1,2]。

5.自適應增強算法(Adaboost)

Freund和Schapire(1996)開發的Adaboost可應用於二分類或多分類的應用場景。Adaboost算法其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把是些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。

我們在這裡使用的弱分類器是分類樹。 Breiman(NIPS Workshop,1996)將Adaboost稱為“世界上最好的現成分類器”[3,4]。

6.Lasso邏輯迴歸(Lasso Logistic Regression)

Friedman等人(2008)使用基因表達值和選擇臨床協變量來預測樣本的二分類情況。該算法使用L1懲罰最大似然法。分類模型可用於對新樣本的預測。

如果選擇了臨床協變量,將比較基因表達聯合臨床協變量的模型與僅含臨床協變量的模型,進行預測效果的顯著性檢驗[5,6]。

參考文獻:

1.Geman D, d’Avignon C, Naiman DQ and Winslow RL. Classifying gene expression profiles from pairwise mRNA comparisons. Statistical Applications in Genetics and Molecular Biology 3(1) 2004.

2.Tan AC, Naiman DQ, Xu L, Winslow RL and Geman D. Simple decision rules for classifying human cancers from gene expression profiles. Bioinformatics 21(20):3896-3904, 2005.

3.Freund, Y. and Schapire, R.E. (1996): "Experiments with a New boosting Algorithm". In Proceedings of the Thirteenth Internal Conference on Machine Learning, pp. 148-156.

4.Breiman, L. (1998): "Arcing classifiers". The Annals of Statistics, Vol 26, 3, pp. 801-849.

5.Friedman, J., Hastie, T. and Tibshirani, R. (2008) Regularization Paths for Generalized

6.Linear Models via Coordinate Descent, Journal of Statistical Software, Vol. 33, Issue 1, Feb 2010

相關推文:

基因芯片小知識(一)

基因芯片小知識(三)

基因芯片小知識(四)

基因芯片小知識(五)

基因芯片小知識(六)——分類預測的模型(二)

FS數據挖掘主編

趙忻藝,將大數據應用於醫學科研,主要包括臨床醫學數據的挖掘、收集、整理和利用(標準化和科學化的數據庫),醫學分子大數據的整理、利用及研究(基因、蛋白及代謝)。特別針對腫瘤個體化的基因測序和數據快速處理,尋找個體化的分子標誌物、藥物靶標和治療方案。目前,已建立浙大大數據挖掘團隊,旨在降低研究者學習大數據的門檻,推動大數據共享與研究協作,發表更高質量的研究成果,為科研決策提供精準的預測和實驗證據。

Freescience精彩內容回顧

科研路,不孤單!^ ^

Freescience醫學科研聯盟全國火熱招募ing

50家高校及醫院的小夥伴已經加入啦,點這裡

FS科研軟件庫,集合60+醫學科研必備神器,現在統統打包分享點這裡

基因芯片小知識(六)——分類預測的模型(二)

科學自由共享

投稿請扔至[email protected]

長按二維碼關

相關推薦

推薦中...