機器學習中幾種常見的分佈

機器學習 人工智能 技術 機器學習與數據挖掘 2018-12-05

數據分佈在機器學習中非常重要,因此,學習算法更需要了解不同的數據分佈。

伯努利分佈

伯努利分佈又稱為0/1分佈,是一種離散分佈,有兩種可能的結果。1表示成功,出現的概率為p(其中0<p<1)。0表示失敗,出現的概率為q=1−p。

二項分佈

二項分佈,即重複n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當試驗次數為1時,二項分佈就是伯努利分佈。

多項式分佈

多項式分佈(Multinomial Distribution)是二項式分佈的推廣。

二項分佈的典型例子是扔硬幣,硬幣正面朝上概率為p,重複扔n次硬幣,k次為正面的概率即為一個二項分佈概率。(嚴格定義見伯努利實驗定義)。把二項分佈公式推廣至多種狀態,就得到了多項分佈。

某隨機實驗如果有k個可能結局A1、A2、…、Ak,分別將他們的出現次數記為隨機變量X1、X2、…、Xk,它們的概率分佈分別是p1,p2,…,pk,那麼在n次採樣的總結果中,A1出現x1次、A2出現x2次、…、Ak出現xk次的這種事件的出現概率P有下面公式:

機器學習中幾種常見的分佈

泊松分佈

機器學習中幾種常見的分佈

泊松分佈的參數λ是單位時間(或單位面積)內隨機事件的平均發生率。泊松分佈適合於描述單位時間內隨機事件發生的次數。

指數分佈

機器學習中幾種常見的分佈

beta分佈

機器學習中幾種常見的分佈

瞭解beta分佈之前,我們需要了解beta函數:

機器學習中幾種常見的分佈

拋硬幣的例子中,x為正整數,所以拋n次硬幣,出現x次正面的後驗概率分佈為

機器學習中幾種常見的分佈

所以才有Beta分佈與二項分佈互為共軛分佈。

Dirichlet分佈

前面我們講到Beta分佈式二項式分佈的共軛先驗,Dirichlet分佈則是多項式分佈的共軛先驗。

Dirichlet(狄利克雷)同時可以看做是將Beta分佈推廣到多變量的情形。概率密度函數定義如下:

機器學習中幾種常見的分佈

α為其參數,且大於零。

B(α)表示 Dirichlet分佈的歸一化常數:

機器學習中幾種常見的分佈

Dirichlet分佈的期望為:

機器學習中幾種常見的分佈

注:Dirichlet分佈在LDA中用重要的應用。

給大家推薦一款專注於機器學習的問答社區——“八斗問答”(微信小程序搜索)。圍繞深度學習、機器學習等主題展開,有很多高校教授、博士生、工程師入駐,免費在線解答疑惑。有任何人工智能相關的問題都可以在這兒提問,當然也會得到滿意的答案。

想要系統學習知識,大家也可以關注下面專欄,內容寫的還不錯。


相關推薦

推薦中...