數據分佈在機器學習中非常重要,因此,學習算法更需要了解不同的數據分佈。
伯努利分佈
伯努利分佈又稱為0/1分佈,是一種離散分佈,有兩種可能的結果。1表示成功,出現的概率為p(其中0<p<1)。0表示失敗,出現的概率為q=1−p。
二項分佈
二項分佈,即重複n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分佈就是伯努利分佈。
多項式分佈
多項式分佈(Multinomial Distribution)是二項式分佈的推廣。
二項分佈的典型例子是扔硬幣,硬幣正面朝上概率為p,重複扔n次硬幣,k次為正面的概率即為一個二項分佈概率。(嚴格定義見伯努利實驗定義)。把二項分佈公式推廣至多種狀態,就得到了多項分佈。
某隨機實驗如果有k個可能結局A1、A2、…、Ak,分別將他們的出現次數記為隨機變量X1、X2、…、Xk,它們的概率分佈分別是p1,p2,…,pk,那麼在n次採樣的總結果中,A1出現x1次、A2出現x2次、…、Ak出現xk次的這種事件的出現概率P有下面公式:
泊松分佈
泊松分佈的參數λ是單位時間(或單位面積)內隨機事件的平均發生率。泊松分佈適合於描述單位時間內隨機事件發生的次數。
指數分佈
beta分佈
瞭解beta分佈之前,我們需要了解beta函數:
拋硬幣的例子中,x為正整數,所以拋n次硬幣,出現x次正面的後驗概率分佈為
所以才有Beta分佈與二項分佈互為共軛分佈。
Dirichlet分佈
前面我們講到Beta分佈式二項式分佈的共軛先驗,Dirichlet分佈則是多項式分佈的共軛先驗。
Dirichlet(狄利克雷)同時可以看做是將Beta分佈推廣到多變量的情形。概率密度函數定義如下:
α為其參數,且大於零。
B(α)表示 Dirichlet分佈的歸一化常數:
Dirichlet分佈的期望為:
注:Dirichlet分佈在LDA中用重要的應用。
給大家推薦一款專注於機器學習的問答社區——“八斗問答”(微信小程序搜索)。圍繞深度學習、機器學習等主題展開,有很多高校教授、博士生、工程師入駐,免費在線解答疑惑。有任何人工智能相關的問題都可以在這兒提問,當然也會得到滿意的答案。
想要系統學習知識,大家也可以關注下面專欄,內容寫的還不錯。