'百度機器學習課程 ①:機器學習可能嗎?'

人工智能 大數據 百度 創業 DataFunTalk 2019-08-22
"


"


百度機器學習課程 ①:機器學習可能嗎?


課程名稱 | 機器學習的思考故事

授課講師 | 畢然 百度 主任架構師

編輯整理 | Hoh Xil

內容來源 | 機器學習訓練營

出品平臺 | 百度技術學院、飛槳、DataFun

▌導讀

第一章機器學習與大數據,主要闡述為何要跨上大數據的戰車,會分以下四個課時進行詳細講解:

① 機器學習可能嗎?為什麼機器能夠學習?

② 機器學習如何做?機器通過怎樣的步驟把知識從現實世界中學到?

③ 大數據的價值。不同於外面誇誇其談的大數據的價值,這裡會從一線工作者的角度,談一談大數據對機器學習和人工智能意味著什麼。

④ 跨上大數據戰車。最後,我們將從商業和應用的角度闡述,為什麼各行各業的企業都想跨上大數據的戰車,大數據可以為業務帶來哪些好處,以及如何利用這些好處改造業務?

下面,首先來看一看,機器學習可能嗎?

▌人類如何學習?

"


百度機器學習課程 ①:機器學習可能嗎?


課程名稱 | 機器學習的思考故事

授課講師 | 畢然 百度 主任架構師

編輯整理 | Hoh Xil

內容來源 | 機器學習訓練營

出品平臺 | 百度技術學院、飛槳、DataFun

▌導讀

第一章機器學習與大數據,主要闡述為何要跨上大數據的戰車,會分以下四個課時進行詳細講解:

① 機器學習可能嗎?為什麼機器能夠學習?

② 機器學習如何做?機器通過怎樣的步驟把知識從現實世界中學到?

③ 大數據的價值。不同於外面誇誇其談的大數據的價值,這裡會從一線工作者的角度,談一談大數據對機器學習和人工智能意味著什麼。

④ 跨上大數據戰車。最後,我們將從商業和應用的角度闡述,為什麼各行各業的企業都想跨上大數據的戰車,大數據可以為業務帶來哪些好處,以及如何利用這些好處改造業務?

下面,首先來看一看,機器學習可能嗎?

▌人類如何學習?

百度機器學習課程 ①:機器學習可能嗎?


回答這個問題之前,我們先看看人類是如何學習的。人類有個特點,就是發明創造新事物的時候,往往會從自然界尋找靈感。舉個例子:人類發明了飛機,可以讓人在天空中飛,這個靈感就來自於人類發現飛鳥可以在空中飛翔。同樣,如果想讓機器學習知識,可以先想一想人類是如何學習的?人類的學習過程從遠古時代就已經開始了,舉個例子,在遠古荒昧無知的時代,有這樣一個原始人,他在經歷烏雲狂風時,發現每次烏雲狂風之後都會下暴雨,當他吃過幾次虧之後,就會長一智,知道在烏雲和狂風之後會下雨,所以每當烏雲密佈狂風不止的時候,他會找個山洞避一避,就不會被雨淋到。通過這個例子說明,人類是通過現實世界中發現的一些有規律的具體案例來進行學習的。這個學習過程可以分為兩個步驟:第一步是歸納,第二步是演繹。如何解釋這個過程?還是剛才的例子,這個原始人歸納的本質性規律是烏雲和狂風之後會下雨,當他在遇到烏雲密佈狂風不止的時候,他就會根據這個規律,知道一會兒可能要下雨,所以這時他會找地方避雨,這就是演繹。 剛剛是原始人的例子,對於現代人也一樣,我們掌握的大量各種各樣的知識,都是通過這樣的過程。以人類學習加法為例,大家想一想人類是不是把所有加法的具體案例都記下來了?比如記下來1+1=2、9+8=17、56+32=88等等,這樣的加法案例是無窮無盡的。其實我們並沒有把所有的案例都記下來,才學會加法的,可能隨便說兩個數字,人類都能知道答案。那麼人類是如何進行這種知識學習的呢?我們是通過一些案例,抽象出一個本質的規律:加法法則,並且兩個部分,第一部分死記硬背10以內的加法,然後對於10以上的加法,利用加法法則去計算,加法法則也很簡單,大家可以看右側的 case,兩個數字列出來之後,每一位進行對應,那麼對應之後,每一列為10以內的一個加法,這就跟我們10以內的加法是一樣的,唯一多了一條規則,就是兩個數相加是可以進位的。比如8+3=11,那除了個位數變成1,它的十位會再進一位出來。人類就是靠著對這些案例的抽象總結來進行學習的。那我們看一看,我們已經知道了人類是這樣學習的,就是歸納和演繹,那這樣的步驟真的靠譜嗎?

"


百度機器學習課程 ①:機器學習可能嗎?


課程名稱 | 機器學習的思考故事

授課講師 | 畢然 百度 主任架構師

編輯整理 | Hoh Xil

內容來源 | 機器學習訓練營

出品平臺 | 百度技術學院、飛槳、DataFun

▌導讀

第一章機器學習與大數據,主要闡述為何要跨上大數據的戰車,會分以下四個課時進行詳細講解:

① 機器學習可能嗎?為什麼機器能夠學習?

② 機器學習如何做?機器通過怎樣的步驟把知識從現實世界中學到?

③ 大數據的價值。不同於外面誇誇其談的大數據的價值,這裡會從一線工作者的角度,談一談大數據對機器學習和人工智能意味著什麼。

④ 跨上大數據戰車。最後,我們將從商業和應用的角度闡述,為什麼各行各業的企業都想跨上大數據的戰車,大數據可以為業務帶來哪些好處,以及如何利用這些好處改造業務?

下面,首先來看一看,機器學習可能嗎?

▌人類如何學習?

百度機器學習課程 ①:機器學習可能嗎?


回答這個問題之前,我們先看看人類是如何學習的。人類有個特點,就是發明創造新事物的時候,往往會從自然界尋找靈感。舉個例子:人類發明了飛機,可以讓人在天空中飛,這個靈感就來自於人類發現飛鳥可以在空中飛翔。同樣,如果想讓機器學習知識,可以先想一想人類是如何學習的?人類的學習過程從遠古時代就已經開始了,舉個例子,在遠古荒昧無知的時代,有這樣一個原始人,他在經歷烏雲狂風時,發現每次烏雲狂風之後都會下暴雨,當他吃過幾次虧之後,就會長一智,知道在烏雲和狂風之後會下雨,所以每當烏雲密佈狂風不止的時候,他會找個山洞避一避,就不會被雨淋到。通過這個例子說明,人類是通過現實世界中發現的一些有規律的具體案例來進行學習的。這個學習過程可以分為兩個步驟:第一步是歸納,第二步是演繹。如何解釋這個過程?還是剛才的例子,這個原始人歸納的本質性規律是烏雲和狂風之後會下雨,當他在遇到烏雲密佈狂風不止的時候,他就會根據這個規律,知道一會兒可能要下雨,所以這時他會找地方避雨,這就是演繹。 剛剛是原始人的例子,對於現代人也一樣,我們掌握的大量各種各樣的知識,都是通過這樣的過程。以人類學習加法為例,大家想一想人類是不是把所有加法的具體案例都記下來了?比如記下來1+1=2、9+8=17、56+32=88等等,這樣的加法案例是無窮無盡的。其實我們並沒有把所有的案例都記下來,才學會加法的,可能隨便說兩個數字,人類都能知道答案。那麼人類是如何進行這種知識學習的呢?我們是通過一些案例,抽象出一個本質的規律:加法法則,並且兩個部分,第一部分死記硬背10以內的加法,然後對於10以上的加法,利用加法法則去計算,加法法則也很簡單,大家可以看右側的 case,兩個數字列出來之後,每一位進行對應,那麼對應之後,每一列為10以內的一個加法,這就跟我們10以內的加法是一樣的,唯一多了一條規則,就是兩個數相加是可以進位的。比如8+3=11,那除了個位數變成1,它的十位會再進一位出來。人類就是靠著對這些案例的抽象總結來進行學習的。那我們看一看,我們已經知道了人類是這樣學習的,就是歸納和演繹,那這樣的步驟真的靠譜嗎?

百度機器學習課程 ①:機器學習可能嗎?


① 在這裡,跟大家分享一個我個人的親身經歷。我是來自於東北的,每次回老家的時候都會有碰到一個非常要好的發小。這個發小每次跟他一起吃飯的時候,他都會吸菸,我就勸他不要吸菸,吸菸是有害健康的。但令人崩潰的是,他總會舉這樣的例子,他說你看名人 A 又吸菸又喝酒,活到了80多歲。但你看名人 B 既不吸菸,也不喝酒,然後50多歲就沒了。所以他說,你勸我吸菸有害健康這個事兒是沒有道理的,我每次都會被他用這個例子回絕。直到我發現“統計”之後,才很好的反駁了他。大家想一想,剛剛我舉的例子,其實發小的學習,也是正常人歸納和演繹的一個過程,對吧?他是看到一些名人的生存情況,歸納出一個本質規律,愛吸菸是不影響人的壽齡的。

② 這樣的 case 還有很多,比如原來有位同學上學期間非常勤奮,但是畢業之後,看到周邊的同學有的嫁入豪門,有的進入 BAT 這樣的互聯網公司有了很好的發展,或者有的同學評運氣中了千萬大獎。這時,他可能會產生一種悲觀情緒,就是他通過這些案例發現周圍同學都是時運大於個人努力。

③ 還有一個經常被大家談論的事情,我經常會跟一些創業者聊各種各樣的業務,我發現一個很有意思的事情,當面對成功的創業者時,他往往認為成功不是投機,是努力的結果。而當面對失敗的創業者時,他則會認為看準機遇更重要。那麼對於創業到底是努力的成分大,還是機遇的成分大呢?

解答上述這些問題,我們需要引入一個正確認識世界的方法,就是統計學習,而不是個案學習。以剛剛吸菸的案例,來說明下。大家可以看右邊這張圖,一共做了3000個樣本的統計,其中1500個樣本是吸菸的人,另外1500個樣本是不吸菸的人,圖中畫出來的是吸菸和不吸菸人群的壽齡分佈。通過這兩張圖的比較,我們會發現,即使一個人不吸菸,他可能只活了四五十歲;而一個吸菸的人,他反而可能會活到八九十歲。但是,從統計的分佈中線來看,吸菸的人要比不吸菸的人平均壽齡少五歲左右。這說明,雖然我們要通過觀察一些案例,用歸納的方式去總結這個世界的規律,但是一定要基於統計,大量的案例觀察去學習,而不是從一些個案中去學習。另外,這張圖還蘊含了更深刻的哲理,比如我們有句老話叫“盡人事聽天命”。那麼在分佈圖中,什麼是人事,什麼是天命呢?“人事”就是選擇哪條正態曲線,“天命”就是正態曲線上的“尾巴”。那麼“盡人事聽天命”如何理解呢?“盡人事”說明我們需要好好努力的生活,選擇正確的生活方式,不去吸菸,就需要選擇這上面比較好的分佈。“聽天命”是什麼呢?即使人們選擇了很好的分佈,但是也不能保證一定會活很久。即使是這樣,人們又不能不“盡人事”,否則會掉到一個更差的分佈中去。這就是“盡人事聽天命”在統計學上的一個理解。

剛剛跟大家分享的哲學含義,可以應用到更多的案例中,比如創業成功者和失敗者對事物的不同看法,也可以通過統計分佈去理解,我們的努力與否,是否把每件事儘可能的做到極致,這其實就是在選擇是否能成功的一個更好的分佈。但是,即使在更好的分佈中,最後是否成功,還要看機遇,把我們留在“好尾巴”還是“壞尾巴”。現實中,非常成功的這些互聯網企業,不僅僅處在非常好的正態分佈中,還處在正態分佈的“好尾巴”上。所以創業能否成功這件事情,既是努力選擇治好的正態分佈的過程,也是靠機遇得到正態分佈中“好尾巴”的過程。

除了“盡人事聽天命”的統計學理解之外,我們還可以看到更多的哲理。剛剛那位勤奮同學通過觀察對周圍同學畢業後生活情況的案例,產生了悲觀情緒,這說明了什麼事情呢?就是人類是靠看到了大量的樣本案例來學習對這個世界的認知和知識的,也就是說我們對世界觀測的樣本決定了我們的人生觀和世界觀。尤其對於小孩來說,讓他們觀測到一些正確的樣本,是對其形成正確世界觀的一個非常決策性的事情。所以,對於孩子學習來說,真正重要的不是學習好或不好,而是孩子通過學習好,可以觀測到一些正確的樣本。當一個孩子每次通過努力學習的方式能夠使學習成績提高,這是一個非常正向的學習樣本,這會讓孩子體會到“一分耕耘,一分收穫”,那麼他的人生觀就是正向的,這會讓他不僅僅在學習上,在處理人生的很多問題上,也會相信經過自己的努力可以改變這個世界的一些事情。但是這個過程,如果孩子學習不好,他就沒有觀測到親身經歷過的一些正樣本,這會對他的人生觀產生消極的影響。所以我們對小孩學習好或不好,不止代表學習好就能考上好大學,更重要的一點,是孩子在學習好這個過程中,他觀測到了這個世界上更正確的一些樣本,以及形成了一個更加積極的人生觀。

整個這一篇的內容,其實是在和大家分享一個事情,就是人類的學習是靠歸納和總結出本質的規律,以及進行演繹,預測到現實中沒有發生的一些事情,但是這個過程中我們不能通過個案去進行,一定要通過大量的案例觀察,以統計學習的方式去進行。

那麼接下來我們看一看“統計學習”真的靠譜嗎?會不會存在一些問題?

▌我們能相信統計麼?

"


百度機器學習課程 ①:機器學習可能嗎?


課程名稱 | 機器學習的思考故事

授課講師 | 畢然 百度 主任架構師

編輯整理 | Hoh Xil

內容來源 | 機器學習訓練營

出品平臺 | 百度技術學院、飛槳、DataFun

▌導讀

第一章機器學習與大數據,主要闡述為何要跨上大數據的戰車,會分以下四個課時進行詳細講解:

① 機器學習可能嗎?為什麼機器能夠學習?

② 機器學習如何做?機器通過怎樣的步驟把知識從現實世界中學到?

③ 大數據的價值。不同於外面誇誇其談的大數據的價值,這裡會從一線工作者的角度,談一談大數據對機器學習和人工智能意味著什麼。

④ 跨上大數據戰車。最後,我們將從商業和應用的角度闡述,為什麼各行各業的企業都想跨上大數據的戰車,大數據可以為業務帶來哪些好處,以及如何利用這些好處改造業務?

下面,首先來看一看,機器學習可能嗎?

▌人類如何學習?

百度機器學習課程 ①:機器學習可能嗎?


回答這個問題之前,我們先看看人類是如何學習的。人類有個特點,就是發明創造新事物的時候,往往會從自然界尋找靈感。舉個例子:人類發明了飛機,可以讓人在天空中飛,這個靈感就來自於人類發現飛鳥可以在空中飛翔。同樣,如果想讓機器學習知識,可以先想一想人類是如何學習的?人類的學習過程從遠古時代就已經開始了,舉個例子,在遠古荒昧無知的時代,有這樣一個原始人,他在經歷烏雲狂風時,發現每次烏雲狂風之後都會下暴雨,當他吃過幾次虧之後,就會長一智,知道在烏雲和狂風之後會下雨,所以每當烏雲密佈狂風不止的時候,他會找個山洞避一避,就不會被雨淋到。通過這個例子說明,人類是通過現實世界中發現的一些有規律的具體案例來進行學習的。這個學習過程可以分為兩個步驟:第一步是歸納,第二步是演繹。如何解釋這個過程?還是剛才的例子,這個原始人歸納的本質性規律是烏雲和狂風之後會下雨,當他在遇到烏雲密佈狂風不止的時候,他就會根據這個規律,知道一會兒可能要下雨,所以這時他會找地方避雨,這就是演繹。 剛剛是原始人的例子,對於現代人也一樣,我們掌握的大量各種各樣的知識,都是通過這樣的過程。以人類學習加法為例,大家想一想人類是不是把所有加法的具體案例都記下來了?比如記下來1+1=2、9+8=17、56+32=88等等,這樣的加法案例是無窮無盡的。其實我們並沒有把所有的案例都記下來,才學會加法的,可能隨便說兩個數字,人類都能知道答案。那麼人類是如何進行這種知識學習的呢?我們是通過一些案例,抽象出一個本質的規律:加法法則,並且兩個部分,第一部分死記硬背10以內的加法,然後對於10以上的加法,利用加法法則去計算,加法法則也很簡單,大家可以看右側的 case,兩個數字列出來之後,每一位進行對應,那麼對應之後,每一列為10以內的一個加法,這就跟我們10以內的加法是一樣的,唯一多了一條規則,就是兩個數相加是可以進位的。比如8+3=11,那除了個位數變成1,它的十位會再進一位出來。人類就是靠著對這些案例的抽象總結來進行學習的。那我們看一看,我們已經知道了人類是這樣學習的,就是歸納和演繹,那這樣的步驟真的靠譜嗎?

百度機器學習課程 ①:機器學習可能嗎?


① 在這裡,跟大家分享一個我個人的親身經歷。我是來自於東北的,每次回老家的時候都會有碰到一個非常要好的發小。這個發小每次跟他一起吃飯的時候,他都會吸菸,我就勸他不要吸菸,吸菸是有害健康的。但令人崩潰的是,他總會舉這樣的例子,他說你看名人 A 又吸菸又喝酒,活到了80多歲。但你看名人 B 既不吸菸,也不喝酒,然後50多歲就沒了。所以他說,你勸我吸菸有害健康這個事兒是沒有道理的,我每次都會被他用這個例子回絕。直到我發現“統計”之後,才很好的反駁了他。大家想一想,剛剛我舉的例子,其實發小的學習,也是正常人歸納和演繹的一個過程,對吧?他是看到一些名人的生存情況,歸納出一個本質規律,愛吸菸是不影響人的壽齡的。

② 這樣的 case 還有很多,比如原來有位同學上學期間非常勤奮,但是畢業之後,看到周邊的同學有的嫁入豪門,有的進入 BAT 這樣的互聯網公司有了很好的發展,或者有的同學評運氣中了千萬大獎。這時,他可能會產生一種悲觀情緒,就是他通過這些案例發現周圍同學都是時運大於個人努力。

③ 還有一個經常被大家談論的事情,我經常會跟一些創業者聊各種各樣的業務,我發現一個很有意思的事情,當面對成功的創業者時,他往往認為成功不是投機,是努力的結果。而當面對失敗的創業者時,他則會認為看準機遇更重要。那麼對於創業到底是努力的成分大,還是機遇的成分大呢?

解答上述這些問題,我們需要引入一個正確認識世界的方法,就是統計學習,而不是個案學習。以剛剛吸菸的案例,來說明下。大家可以看右邊這張圖,一共做了3000個樣本的統計,其中1500個樣本是吸菸的人,另外1500個樣本是不吸菸的人,圖中畫出來的是吸菸和不吸菸人群的壽齡分佈。通過這兩張圖的比較,我們會發現,即使一個人不吸菸,他可能只活了四五十歲;而一個吸菸的人,他反而可能會活到八九十歲。但是,從統計的分佈中線來看,吸菸的人要比不吸菸的人平均壽齡少五歲左右。這說明,雖然我們要通過觀察一些案例,用歸納的方式去總結這個世界的規律,但是一定要基於統計,大量的案例觀察去學習,而不是從一些個案中去學習。另外,這張圖還蘊含了更深刻的哲理,比如我們有句老話叫“盡人事聽天命”。那麼在分佈圖中,什麼是人事,什麼是天命呢?“人事”就是選擇哪條正態曲線,“天命”就是正態曲線上的“尾巴”。那麼“盡人事聽天命”如何理解呢?“盡人事”說明我們需要好好努力的生活,選擇正確的生活方式,不去吸菸,就需要選擇這上面比較好的分佈。“聽天命”是什麼呢?即使人們選擇了很好的分佈,但是也不能保證一定會活很久。即使是這樣,人們又不能不“盡人事”,否則會掉到一個更差的分佈中去。這就是“盡人事聽天命”在統計學上的一個理解。

剛剛跟大家分享的哲學含義,可以應用到更多的案例中,比如創業成功者和失敗者對事物的不同看法,也可以通過統計分佈去理解,我們的努力與否,是否把每件事儘可能的做到極致,這其實就是在選擇是否能成功的一個更好的分佈。但是,即使在更好的分佈中,最後是否成功,還要看機遇,把我們留在“好尾巴”還是“壞尾巴”。現實中,非常成功的這些互聯網企業,不僅僅處在非常好的正態分佈中,還處在正態分佈的“好尾巴”上。所以創業能否成功這件事情,既是努力選擇治好的正態分佈的過程,也是靠機遇得到正態分佈中“好尾巴”的過程。

除了“盡人事聽天命”的統計學理解之外,我們還可以看到更多的哲理。剛剛那位勤奮同學通過觀察對周圍同學畢業後生活情況的案例,產生了悲觀情緒,這說明了什麼事情呢?就是人類是靠看到了大量的樣本案例來學習對這個世界的認知和知識的,也就是說我們對世界觀測的樣本決定了我們的人生觀和世界觀。尤其對於小孩來說,讓他們觀測到一些正確的樣本,是對其形成正確世界觀的一個非常決策性的事情。所以,對於孩子學習來說,真正重要的不是學習好或不好,而是孩子通過學習好,可以觀測到一些正確的樣本。當一個孩子每次通過努力學習的方式能夠使學習成績提高,這是一個非常正向的學習樣本,這會讓孩子體會到“一分耕耘,一分收穫”,那麼他的人生觀就是正向的,這會讓他不僅僅在學習上,在處理人生的很多問題上,也會相信經過自己的努力可以改變這個世界的一些事情。但是這個過程,如果孩子學習不好,他就沒有觀測到親身經歷過的一些正樣本,這會對他的人生觀產生消極的影響。所以我們對小孩學習好或不好,不止代表學習好就能考上好大學,更重要的一點,是孩子在學習好這個過程中,他觀測到了這個世界上更正確的一些樣本,以及形成了一個更加積極的人生觀。

整個這一篇的內容,其實是在和大家分享一個事情,就是人類的學習是靠歸納和總結出本質的規律,以及進行演繹,預測到現實中沒有發生的一些事情,但是這個過程中我們不能通過個案去進行,一定要通過大量的案例觀察,以統計學習的方式去進行。

那麼接下來我們看一看“統計學習”真的靠譜嗎?會不會存在一些問題?

▌我們能相信統計麼?

百度機器學習課程 ①:機器學習可能嗎?


案例1:有一個罐子,罐子中有兩種顏色的小球,分別為綠色和黃色。當從罐中隨意抓出來一把,發現有十個小球,其中有七個是綠色的,有三個是黃色的。這裡想問大家一個問題,就是大家會不會判斷罐子中綠色小球的概率有70%?這是第一個問題,大家可以稍微思考下。

案例2:這裡有6張圖,上面3張一組,下面3張一組,上面一組有一個本質的規律,稱為 A 類。下面一組也有一個本質的規律,稱為 B 類。問題是,當我拿出這張新圖的時候,它是屬於 A 類還是 B 類?大家同樣可以簡單思考下。

案例3: 已知,X 和 Y 之間存在著一定的關係,其上有五個點,分佈情況如圖所示。大家猜測一下 X 和 Y 之間是什麼樣的關係?

現在說一下三道題的答案。對於第一道題,相信大部分的同學都能作出這樣一個判斷:雖然抽出來的10個小球中有7個是綠色的,有3個是黃色的,但是我們不好去判斷整個罐子中的一個情況,對吧?因為我們抓出來的10個小球不能夠代表整個罐子中小球的情況。對於第二道題來說,可能有的同學會說它應該屬於 B 類,因為 B 類每個圖形都是對稱的,然後這個新的圖形也是對稱的,所以會判斷它應該屬於 B 類。但我要跟大家說的是第二道題,答案是 A 類。為什麼是A類?因為大家可以看到 A 類每個圖的中心都是黑色的,這個新圖的中心也是黑色的,所以它是 A 類。但是如果有同學說他一開始選擇的也是 A 類,其實這也是錯的,因為 B 類每個圖都是對稱的,而新圖也是對稱的。也就是說通過已有經驗觀測得到的結論,其實是沒辦法得知真實情況的。再來看第三道題。很多人可能會猜測 X 和 Y 之間的關係應該是一條直線。這其實是錯的,因為它是一條曲線,只是這條曲線正好經過這五個點而已。那如果有同學說,一開始就認為是條曲線,那為什麼不是一條更曲的曲線或者是一條直線呢?

通過這幾個令人崩潰的例子,跟大家說明一件事,就是一定要通過統計去學習,而不是一些個案去學習。但是我們還發現,對這個世界進行一些抽樣的觀測的案例,再通過這些案例去推測這個世界背後的本質規律,其實是行不通的。對吧?第一道題是拿出了一些小球,通過這些小球的一個分佈,去推測罐子中的情況。第二道題,通過觀測一些題目的樣本規律,來推測其背後的規律也是不行的。第三道題,通過觀測 X 和 Y 之間的一些觀測點數據,也是沒辦法推測 X 和 Y 之間的關係?這就比較令人惱火了,統計不行,數據分析也不行,那機器學習是不是也不行?這個世界真的是這麼殘酷嗎?

這裡要跟大家說明下,正常情況下,我會在整個系列課程的中間位置來跟大家介紹這方面的內容,但是有的同學跟我說,老師,下次調整一定要把這個案例調整到最開始,因為當你知道這件事的時候,你會說哎呀,老師你真是太壞了,早點說這個事兒,我一開始就不學了,都已經學一半了,沒辦法,只能繼續學下去,所以這次調整我就把這個案例放在一開始。但是大家不要灰心喪氣,其實這個世界背後有一些更本質的規律,可以保證通過統計是可以學習到知識的,這個保證就是大數定律。

▌基於概率的信任

"


百度機器學習課程 ①:機器學習可能嗎?


課程名稱 | 機器學習的思考故事

授課講師 | 畢然 百度 主任架構師

編輯整理 | Hoh Xil

內容來源 | 機器學習訓練營

出品平臺 | 百度技術學院、飛槳、DataFun

▌導讀

第一章機器學習與大數據,主要闡述為何要跨上大數據的戰車,會分以下四個課時進行詳細講解:

① 機器學習可能嗎?為什麼機器能夠學習?

② 機器學習如何做?機器通過怎樣的步驟把知識從現實世界中學到?

③ 大數據的價值。不同於外面誇誇其談的大數據的價值,這裡會從一線工作者的角度,談一談大數據對機器學習和人工智能意味著什麼。

④ 跨上大數據戰車。最後,我們將從商業和應用的角度闡述,為什麼各行各業的企業都想跨上大數據的戰車,大數據可以為業務帶來哪些好處,以及如何利用這些好處改造業務?

下面,首先來看一看,機器學習可能嗎?

▌人類如何學習?

百度機器學習課程 ①:機器學習可能嗎?


回答這個問題之前,我們先看看人類是如何學習的。人類有個特點,就是發明創造新事物的時候,往往會從自然界尋找靈感。舉個例子:人類發明了飛機,可以讓人在天空中飛,這個靈感就來自於人類發現飛鳥可以在空中飛翔。同樣,如果想讓機器學習知識,可以先想一想人類是如何學習的?人類的學習過程從遠古時代就已經開始了,舉個例子,在遠古荒昧無知的時代,有這樣一個原始人,他在經歷烏雲狂風時,發現每次烏雲狂風之後都會下暴雨,當他吃過幾次虧之後,就會長一智,知道在烏雲和狂風之後會下雨,所以每當烏雲密佈狂風不止的時候,他會找個山洞避一避,就不會被雨淋到。通過這個例子說明,人類是通過現實世界中發現的一些有規律的具體案例來進行學習的。這個學習過程可以分為兩個步驟:第一步是歸納,第二步是演繹。如何解釋這個過程?還是剛才的例子,這個原始人歸納的本質性規律是烏雲和狂風之後會下雨,當他在遇到烏雲密佈狂風不止的時候,他就會根據這個規律,知道一會兒可能要下雨,所以這時他會找地方避雨,這就是演繹。 剛剛是原始人的例子,對於現代人也一樣,我們掌握的大量各種各樣的知識,都是通過這樣的過程。以人類學習加法為例,大家想一想人類是不是把所有加法的具體案例都記下來了?比如記下來1+1=2、9+8=17、56+32=88等等,這樣的加法案例是無窮無盡的。其實我們並沒有把所有的案例都記下來,才學會加法的,可能隨便說兩個數字,人類都能知道答案。那麼人類是如何進行這種知識學習的呢?我們是通過一些案例,抽象出一個本質的規律:加法法則,並且兩個部分,第一部分死記硬背10以內的加法,然後對於10以上的加法,利用加法法則去計算,加法法則也很簡單,大家可以看右側的 case,兩個數字列出來之後,每一位進行對應,那麼對應之後,每一列為10以內的一個加法,這就跟我們10以內的加法是一樣的,唯一多了一條規則,就是兩個數相加是可以進位的。比如8+3=11,那除了個位數變成1,它的十位會再進一位出來。人類就是靠著對這些案例的抽象總結來進行學習的。那我們看一看,我們已經知道了人類是這樣學習的,就是歸納和演繹,那這樣的步驟真的靠譜嗎?

百度機器學習課程 ①:機器學習可能嗎?


① 在這裡,跟大家分享一個我個人的親身經歷。我是來自於東北的,每次回老家的時候都會有碰到一個非常要好的發小。這個發小每次跟他一起吃飯的時候,他都會吸菸,我就勸他不要吸菸,吸菸是有害健康的。但令人崩潰的是,他總會舉這樣的例子,他說你看名人 A 又吸菸又喝酒,活到了80多歲。但你看名人 B 既不吸菸,也不喝酒,然後50多歲就沒了。所以他說,你勸我吸菸有害健康這個事兒是沒有道理的,我每次都會被他用這個例子回絕。直到我發現“統計”之後,才很好的反駁了他。大家想一想,剛剛我舉的例子,其實發小的學習,也是正常人歸納和演繹的一個過程,對吧?他是看到一些名人的生存情況,歸納出一個本質規律,愛吸菸是不影響人的壽齡的。

② 這樣的 case 還有很多,比如原來有位同學上學期間非常勤奮,但是畢業之後,看到周邊的同學有的嫁入豪門,有的進入 BAT 這樣的互聯網公司有了很好的發展,或者有的同學評運氣中了千萬大獎。這時,他可能會產生一種悲觀情緒,就是他通過這些案例發現周圍同學都是時運大於個人努力。

③ 還有一個經常被大家談論的事情,我經常會跟一些創業者聊各種各樣的業務,我發現一個很有意思的事情,當面對成功的創業者時,他往往認為成功不是投機,是努力的結果。而當面對失敗的創業者時,他則會認為看準機遇更重要。那麼對於創業到底是努力的成分大,還是機遇的成分大呢?

解答上述這些問題,我們需要引入一個正確認識世界的方法,就是統計學習,而不是個案學習。以剛剛吸菸的案例,來說明下。大家可以看右邊這張圖,一共做了3000個樣本的統計,其中1500個樣本是吸菸的人,另外1500個樣本是不吸菸的人,圖中畫出來的是吸菸和不吸菸人群的壽齡分佈。通過這兩張圖的比較,我們會發現,即使一個人不吸菸,他可能只活了四五十歲;而一個吸菸的人,他反而可能會活到八九十歲。但是,從統計的分佈中線來看,吸菸的人要比不吸菸的人平均壽齡少五歲左右。這說明,雖然我們要通過觀察一些案例,用歸納的方式去總結這個世界的規律,但是一定要基於統計,大量的案例觀察去學習,而不是從一些個案中去學習。另外,這張圖還蘊含了更深刻的哲理,比如我們有句老話叫“盡人事聽天命”。那麼在分佈圖中,什麼是人事,什麼是天命呢?“人事”就是選擇哪條正態曲線,“天命”就是正態曲線上的“尾巴”。那麼“盡人事聽天命”如何理解呢?“盡人事”說明我們需要好好努力的生活,選擇正確的生活方式,不去吸菸,就需要選擇這上面比較好的分佈。“聽天命”是什麼呢?即使人們選擇了很好的分佈,但是也不能保證一定會活很久。即使是這樣,人們又不能不“盡人事”,否則會掉到一個更差的分佈中去。這就是“盡人事聽天命”在統計學上的一個理解。

剛剛跟大家分享的哲學含義,可以應用到更多的案例中,比如創業成功者和失敗者對事物的不同看法,也可以通過統計分佈去理解,我們的努力與否,是否把每件事儘可能的做到極致,這其實就是在選擇是否能成功的一個更好的分佈。但是,即使在更好的分佈中,最後是否成功,還要看機遇,把我們留在“好尾巴”還是“壞尾巴”。現實中,非常成功的這些互聯網企業,不僅僅處在非常好的正態分佈中,還處在正態分佈的“好尾巴”上。所以創業能否成功這件事情,既是努力選擇治好的正態分佈的過程,也是靠機遇得到正態分佈中“好尾巴”的過程。

除了“盡人事聽天命”的統計學理解之外,我們還可以看到更多的哲理。剛剛那位勤奮同學通過觀察對周圍同學畢業後生活情況的案例,產生了悲觀情緒,這說明了什麼事情呢?就是人類是靠看到了大量的樣本案例來學習對這個世界的認知和知識的,也就是說我們對世界觀測的樣本決定了我們的人生觀和世界觀。尤其對於小孩來說,讓他們觀測到一些正確的樣本,是對其形成正確世界觀的一個非常決策性的事情。所以,對於孩子學習來說,真正重要的不是學習好或不好,而是孩子通過學習好,可以觀測到一些正確的樣本。當一個孩子每次通過努力學習的方式能夠使學習成績提高,這是一個非常正向的學習樣本,這會讓孩子體會到“一分耕耘,一分收穫”,那麼他的人生觀就是正向的,這會讓他不僅僅在學習上,在處理人生的很多問題上,也會相信經過自己的努力可以改變這個世界的一些事情。但是這個過程,如果孩子學習不好,他就沒有觀測到親身經歷過的一些正樣本,這會對他的人生觀產生消極的影響。所以我們對小孩學習好或不好,不止代表學習好就能考上好大學,更重要的一點,是孩子在學習好這個過程中,他觀測到了這個世界上更正確的一些樣本,以及形成了一個更加積極的人生觀。

整個這一篇的內容,其實是在和大家分享一個事情,就是人類的學習是靠歸納和總結出本質的規律,以及進行演繹,預測到現實中沒有發生的一些事情,但是這個過程中我們不能通過個案去進行,一定要通過大量的案例觀察,以統計學習的方式去進行。

那麼接下來我們看一看“統計學習”真的靠譜嗎?會不會存在一些問題?

▌我們能相信統計麼?

百度機器學習課程 ①:機器學習可能嗎?


案例1:有一個罐子,罐子中有兩種顏色的小球,分別為綠色和黃色。當從罐中隨意抓出來一把,發現有十個小球,其中有七個是綠色的,有三個是黃色的。這裡想問大家一個問題,就是大家會不會判斷罐子中綠色小球的概率有70%?這是第一個問題,大家可以稍微思考下。

案例2:這裡有6張圖,上面3張一組,下面3張一組,上面一組有一個本質的規律,稱為 A 類。下面一組也有一個本質的規律,稱為 B 類。問題是,當我拿出這張新圖的時候,它是屬於 A 類還是 B 類?大家同樣可以簡單思考下。

案例3: 已知,X 和 Y 之間存在著一定的關係,其上有五個點,分佈情況如圖所示。大家猜測一下 X 和 Y 之間是什麼樣的關係?

現在說一下三道題的答案。對於第一道題,相信大部分的同學都能作出這樣一個判斷:雖然抽出來的10個小球中有7個是綠色的,有3個是黃色的,但是我們不好去判斷整個罐子中的一個情況,對吧?因為我們抓出來的10個小球不能夠代表整個罐子中小球的情況。對於第二道題來說,可能有的同學會說它應該屬於 B 類,因為 B 類每個圖形都是對稱的,然後這個新的圖形也是對稱的,所以會判斷它應該屬於 B 類。但我要跟大家說的是第二道題,答案是 A 類。為什麼是A類?因為大家可以看到 A 類每個圖的中心都是黑色的,這個新圖的中心也是黑色的,所以它是 A 類。但是如果有同學說他一開始選擇的也是 A 類,其實這也是錯的,因為 B 類每個圖都是對稱的,而新圖也是對稱的。也就是說通過已有經驗觀測得到的結論,其實是沒辦法得知真實情況的。再來看第三道題。很多人可能會猜測 X 和 Y 之間的關係應該是一條直線。這其實是錯的,因為它是一條曲線,只是這條曲線正好經過這五個點而已。那如果有同學說,一開始就認為是條曲線,那為什麼不是一條更曲的曲線或者是一條直線呢?

通過這幾個令人崩潰的例子,跟大家說明一件事,就是一定要通過統計去學習,而不是一些個案去學習。但是我們還發現,對這個世界進行一些抽樣的觀測的案例,再通過這些案例去推測這個世界背後的本質規律,其實是行不通的。對吧?第一道題是拿出了一些小球,通過這些小球的一個分佈,去推測罐子中的情況。第二道題,通過觀測一些題目的樣本規律,來推測其背後的規律也是不行的。第三道題,通過觀測 X 和 Y 之間的一些觀測點數據,也是沒辦法推測 X 和 Y 之間的關係?這就比較令人惱火了,統計不行,數據分析也不行,那機器學習是不是也不行?這個世界真的是這麼殘酷嗎?

這裡要跟大家說明下,正常情況下,我會在整個系列課程的中間位置來跟大家介紹這方面的內容,但是有的同學跟我說,老師,下次調整一定要把這個案例調整到最開始,因為當你知道這件事的時候,你會說哎呀,老師你真是太壞了,早點說這個事兒,我一開始就不學了,都已經學一半了,沒辦法,只能繼續學下去,所以這次調整我就把這個案例放在一開始。但是大家不要灰心喪氣,其實這個世界背後有一些更本質的規律,可以保證通過統計是可以學習到知識的,這個保證就是大數定律。

▌基於概率的信任

百度機器學習課程 ①:機器學習可能嗎?


剛才之所以會發生讓大家崩潰的一些案例,是因為我在整個事情的背後扮演了上帝的角色。但是這個世界如果有上帝的話,其實是沒有這麼險惡的。他設定了宇宙所要遵守的一些更本質的規律。其中,有一種本質規律就是抽樣統計值和真實事件之間會存在一種數學關係,這個數學關係可以用大數定律來表達。對於大數定律,大家在中學應該都學過,就是當實驗或觀測的數量足夠多的時候,根據觀測得到的統計概率會無限接近於該事件發生的真實概率。這裡要說的一點是,我們對大數定律的理解,要早於科學家真正的發現這一定律。從遠古時代,大數定律的運用就隱藏在每個人對世界的理解中了。舉個孔子時代曾參殺人的典故。當時孔子有一個非常賢能的學生叫曾參,有一天,跟曾參同名同姓的人在他的家鄉殺人了,然後他的鄰居們就不斷的傳這個事情。這時,有一個人來找曾母,說你兒子殺人了,你怎麼不趕緊跑(在古代,犯罪之後是要連坐的)?此時曾母並不相信,他說你看我兒子這麼賢能,他怎麼會殺人?你們肯定是在胡說,我不相信。然後她繼續淡定的織布,過了一會兒,來了第二個人跟曾母說,你兒子殺人了,這時曾母雖然表情非常淡定,但實際上心裡已經開始打鼓了,當第三個人對她說,你兒子殺人啦,你怎麼還在這?之後呢,曾母立刻扔下織布機,翻牆逃跑了。孔子知道了這件事之後,對曾母進行了非常嚴重的批判,說三人成虎,一則無心,二則疑,三則信矣。那麼今天要做的就是為曾母進行翻案,大家可以看到,其實曾母並不是不相信他的兒子,曾母是在基於自己對大數定律的理解而作出的判斷。當一個人說兒子殺人的時候,那麼他殺人的概率可能還不是很大,但是當隨著觀測到的樣本不斷增多的時候,當週圍所有的人都說兒子殺人的時候,那麼他沒殺人的概率其實就非常低了,這就是大數定律。我們工作中,建模的經驗也是這樣,一開始往往會對某個問題有些領域的認知,然後把這些認知變成一種人工的規則,但是隨著獲得的數據樣本逐漸增多,往往都會傾向於之後的規律變成一個學習的模型,基於這些數據來進行判斷,而不完全是之前歷史的人工的經驗。

大數定律的數學表達,可以用下面的不等式來表示:


"


百度機器學習課程 ①:機器學習可能嗎?


課程名稱 | 機器學習的思考故事

授課講師 | 畢然 百度 主任架構師

編輯整理 | Hoh Xil

內容來源 | 機器學習訓練營

出品平臺 | 百度技術學院、飛槳、DataFun

▌導讀

第一章機器學習與大數據,主要闡述為何要跨上大數據的戰車,會分以下四個課時進行詳細講解:

① 機器學習可能嗎?為什麼機器能夠學習?

② 機器學習如何做?機器通過怎樣的步驟把知識從現實世界中學到?

③ 大數據的價值。不同於外面誇誇其談的大數據的價值,這裡會從一線工作者的角度,談一談大數據對機器學習和人工智能意味著什麼。

④ 跨上大數據戰車。最後,我們將從商業和應用的角度闡述,為什麼各行各業的企業都想跨上大數據的戰車,大數據可以為業務帶來哪些好處,以及如何利用這些好處改造業務?

下面,首先來看一看,機器學習可能嗎?

▌人類如何學習?

百度機器學習課程 ①:機器學習可能嗎?


回答這個問題之前,我們先看看人類是如何學習的。人類有個特點,就是發明創造新事物的時候,往往會從自然界尋找靈感。舉個例子:人類發明了飛機,可以讓人在天空中飛,這個靈感就來自於人類發現飛鳥可以在空中飛翔。同樣,如果想讓機器學習知識,可以先想一想人類是如何學習的?人類的學習過程從遠古時代就已經開始了,舉個例子,在遠古荒昧無知的時代,有這樣一個原始人,他在經歷烏雲狂風時,發現每次烏雲狂風之後都會下暴雨,當他吃過幾次虧之後,就會長一智,知道在烏雲和狂風之後會下雨,所以每當烏雲密佈狂風不止的時候,他會找個山洞避一避,就不會被雨淋到。通過這個例子說明,人類是通過現實世界中發現的一些有規律的具體案例來進行學習的。這個學習過程可以分為兩個步驟:第一步是歸納,第二步是演繹。如何解釋這個過程?還是剛才的例子,這個原始人歸納的本質性規律是烏雲和狂風之後會下雨,當他在遇到烏雲密佈狂風不止的時候,他就會根據這個規律,知道一會兒可能要下雨,所以這時他會找地方避雨,這就是演繹。 剛剛是原始人的例子,對於現代人也一樣,我們掌握的大量各種各樣的知識,都是通過這樣的過程。以人類學習加法為例,大家想一想人類是不是把所有加法的具體案例都記下來了?比如記下來1+1=2、9+8=17、56+32=88等等,這樣的加法案例是無窮無盡的。其實我們並沒有把所有的案例都記下來,才學會加法的,可能隨便說兩個數字,人類都能知道答案。那麼人類是如何進行這種知識學習的呢?我們是通過一些案例,抽象出一個本質的規律:加法法則,並且兩個部分,第一部分死記硬背10以內的加法,然後對於10以上的加法,利用加法法則去計算,加法法則也很簡單,大家可以看右側的 case,兩個數字列出來之後,每一位進行對應,那麼對應之後,每一列為10以內的一個加法,這就跟我們10以內的加法是一樣的,唯一多了一條規則,就是兩個數相加是可以進位的。比如8+3=11,那除了個位數變成1,它的十位會再進一位出來。人類就是靠著對這些案例的抽象總結來進行學習的。那我們看一看,我們已經知道了人類是這樣學習的,就是歸納和演繹,那這樣的步驟真的靠譜嗎?

百度機器學習課程 ①:機器學習可能嗎?


① 在這裡,跟大家分享一個我個人的親身經歷。我是來自於東北的,每次回老家的時候都會有碰到一個非常要好的發小。這個發小每次跟他一起吃飯的時候,他都會吸菸,我就勸他不要吸菸,吸菸是有害健康的。但令人崩潰的是,他總會舉這樣的例子,他說你看名人 A 又吸菸又喝酒,活到了80多歲。但你看名人 B 既不吸菸,也不喝酒,然後50多歲就沒了。所以他說,你勸我吸菸有害健康這個事兒是沒有道理的,我每次都會被他用這個例子回絕。直到我發現“統計”之後,才很好的反駁了他。大家想一想,剛剛我舉的例子,其實發小的學習,也是正常人歸納和演繹的一個過程,對吧?他是看到一些名人的生存情況,歸納出一個本質規律,愛吸菸是不影響人的壽齡的。

② 這樣的 case 還有很多,比如原來有位同學上學期間非常勤奮,但是畢業之後,看到周邊的同學有的嫁入豪門,有的進入 BAT 這樣的互聯網公司有了很好的發展,或者有的同學評運氣中了千萬大獎。這時,他可能會產生一種悲觀情緒,就是他通過這些案例發現周圍同學都是時運大於個人努力。

③ 還有一個經常被大家談論的事情,我經常會跟一些創業者聊各種各樣的業務,我發現一個很有意思的事情,當面對成功的創業者時,他往往認為成功不是投機,是努力的結果。而當面對失敗的創業者時,他則會認為看準機遇更重要。那麼對於創業到底是努力的成分大,還是機遇的成分大呢?

解答上述這些問題,我們需要引入一個正確認識世界的方法,就是統計學習,而不是個案學習。以剛剛吸菸的案例,來說明下。大家可以看右邊這張圖,一共做了3000個樣本的統計,其中1500個樣本是吸菸的人,另外1500個樣本是不吸菸的人,圖中畫出來的是吸菸和不吸菸人群的壽齡分佈。通過這兩張圖的比較,我們會發現,即使一個人不吸菸,他可能只活了四五十歲;而一個吸菸的人,他反而可能會活到八九十歲。但是,從統計的分佈中線來看,吸菸的人要比不吸菸的人平均壽齡少五歲左右。這說明,雖然我們要通過觀察一些案例,用歸納的方式去總結這個世界的規律,但是一定要基於統計,大量的案例觀察去學習,而不是從一些個案中去學習。另外,這張圖還蘊含了更深刻的哲理,比如我們有句老話叫“盡人事聽天命”。那麼在分佈圖中,什麼是人事,什麼是天命呢?“人事”就是選擇哪條正態曲線,“天命”就是正態曲線上的“尾巴”。那麼“盡人事聽天命”如何理解呢?“盡人事”說明我們需要好好努力的生活,選擇正確的生活方式,不去吸菸,就需要選擇這上面比較好的分佈。“聽天命”是什麼呢?即使人們選擇了很好的分佈,但是也不能保證一定會活很久。即使是這樣,人們又不能不“盡人事”,否則會掉到一個更差的分佈中去。這就是“盡人事聽天命”在統計學上的一個理解。

剛剛跟大家分享的哲學含義,可以應用到更多的案例中,比如創業成功者和失敗者對事物的不同看法,也可以通過統計分佈去理解,我們的努力與否,是否把每件事儘可能的做到極致,這其實就是在選擇是否能成功的一個更好的分佈。但是,即使在更好的分佈中,最後是否成功,還要看機遇,把我們留在“好尾巴”還是“壞尾巴”。現實中,非常成功的這些互聯網企業,不僅僅處在非常好的正態分佈中,還處在正態分佈的“好尾巴”上。所以創業能否成功這件事情,既是努力選擇治好的正態分佈的過程,也是靠機遇得到正態分佈中“好尾巴”的過程。

除了“盡人事聽天命”的統計學理解之外,我們還可以看到更多的哲理。剛剛那位勤奮同學通過觀察對周圍同學畢業後生活情況的案例,產生了悲觀情緒,這說明了什麼事情呢?就是人類是靠看到了大量的樣本案例來學習對這個世界的認知和知識的,也就是說我們對世界觀測的樣本決定了我們的人生觀和世界觀。尤其對於小孩來說,讓他們觀測到一些正確的樣本,是對其形成正確世界觀的一個非常決策性的事情。所以,對於孩子學習來說,真正重要的不是學習好或不好,而是孩子通過學習好,可以觀測到一些正確的樣本。當一個孩子每次通過努力學習的方式能夠使學習成績提高,這是一個非常正向的學習樣本,這會讓孩子體會到“一分耕耘,一分收穫”,那麼他的人生觀就是正向的,這會讓他不僅僅在學習上,在處理人生的很多問題上,也會相信經過自己的努力可以改變這個世界的一些事情。但是這個過程,如果孩子學習不好,他就沒有觀測到親身經歷過的一些正樣本,這會對他的人生觀產生消極的影響。所以我們對小孩學習好或不好,不止代表學習好就能考上好大學,更重要的一點,是孩子在學習好這個過程中,他觀測到了這個世界上更正確的一些樣本,以及形成了一個更加積極的人生觀。

整個這一篇的內容,其實是在和大家分享一個事情,就是人類的學習是靠歸納和總結出本質的規律,以及進行演繹,預測到現實中沒有發生的一些事情,但是這個過程中我們不能通過個案去進行,一定要通過大量的案例觀察,以統計學習的方式去進行。

那麼接下來我們看一看“統計學習”真的靠譜嗎?會不會存在一些問題?

▌我們能相信統計麼?

百度機器學習課程 ①:機器學習可能嗎?


案例1:有一個罐子,罐子中有兩種顏色的小球,分別為綠色和黃色。當從罐中隨意抓出來一把,發現有十個小球,其中有七個是綠色的,有三個是黃色的。這裡想問大家一個問題,就是大家會不會判斷罐子中綠色小球的概率有70%?這是第一個問題,大家可以稍微思考下。

案例2:這裡有6張圖,上面3張一組,下面3張一組,上面一組有一個本質的規律,稱為 A 類。下面一組也有一個本質的規律,稱為 B 類。問題是,當我拿出這張新圖的時候,它是屬於 A 類還是 B 類?大家同樣可以簡單思考下。

案例3: 已知,X 和 Y 之間存在著一定的關係,其上有五個點,分佈情況如圖所示。大家猜測一下 X 和 Y 之間是什麼樣的關係?

現在說一下三道題的答案。對於第一道題,相信大部分的同學都能作出這樣一個判斷:雖然抽出來的10個小球中有7個是綠色的,有3個是黃色的,但是我們不好去判斷整個罐子中的一個情況,對吧?因為我們抓出來的10個小球不能夠代表整個罐子中小球的情況。對於第二道題來說,可能有的同學會說它應該屬於 B 類,因為 B 類每個圖形都是對稱的,然後這個新的圖形也是對稱的,所以會判斷它應該屬於 B 類。但我要跟大家說的是第二道題,答案是 A 類。為什麼是A類?因為大家可以看到 A 類每個圖的中心都是黑色的,這個新圖的中心也是黑色的,所以它是 A 類。但是如果有同學說他一開始選擇的也是 A 類,其實這也是錯的,因為 B 類每個圖都是對稱的,而新圖也是對稱的。也就是說通過已有經驗觀測得到的結論,其實是沒辦法得知真實情況的。再來看第三道題。很多人可能會猜測 X 和 Y 之間的關係應該是一條直線。這其實是錯的,因為它是一條曲線,只是這條曲線正好經過這五個點而已。那如果有同學說,一開始就認為是條曲線,那為什麼不是一條更曲的曲線或者是一條直線呢?

通過這幾個令人崩潰的例子,跟大家說明一件事,就是一定要通過統計去學習,而不是一些個案去學習。但是我們還發現,對這個世界進行一些抽樣的觀測的案例,再通過這些案例去推測這個世界背後的本質規律,其實是行不通的。對吧?第一道題是拿出了一些小球,通過這些小球的一個分佈,去推測罐子中的情況。第二道題,通過觀測一些題目的樣本規律,來推測其背後的規律也是不行的。第三道題,通過觀測 X 和 Y 之間的一些觀測點數據,也是沒辦法推測 X 和 Y 之間的關係?這就比較令人惱火了,統計不行,數據分析也不行,那機器學習是不是也不行?這個世界真的是這麼殘酷嗎?

這裡要跟大家說明下,正常情況下,我會在整個系列課程的中間位置來跟大家介紹這方面的內容,但是有的同學跟我說,老師,下次調整一定要把這個案例調整到最開始,因為當你知道這件事的時候,你會說哎呀,老師你真是太壞了,早點說這個事兒,我一開始就不學了,都已經學一半了,沒辦法,只能繼續學下去,所以這次調整我就把這個案例放在一開始。但是大家不要灰心喪氣,其實這個世界背後有一些更本質的規律,可以保證通過統計是可以學習到知識的,這個保證就是大數定律。

▌基於概率的信任

百度機器學習課程 ①:機器學習可能嗎?


剛才之所以會發生讓大家崩潰的一些案例,是因為我在整個事情的背後扮演了上帝的角色。但是這個世界如果有上帝的話,其實是沒有這麼險惡的。他設定了宇宙所要遵守的一些更本質的規律。其中,有一種本質規律就是抽樣統計值和真實事件之間會存在一種數學關係,這個數學關係可以用大數定律來表達。對於大數定律,大家在中學應該都學過,就是當實驗或觀測的數量足夠多的時候,根據觀測得到的統計概率會無限接近於該事件發生的真實概率。這裡要說的一點是,我們對大數定律的理解,要早於科學家真正的發現這一定律。從遠古時代,大數定律的運用就隱藏在每個人對世界的理解中了。舉個孔子時代曾參殺人的典故。當時孔子有一個非常賢能的學生叫曾參,有一天,跟曾參同名同姓的人在他的家鄉殺人了,然後他的鄰居們就不斷的傳這個事情。這時,有一個人來找曾母,說你兒子殺人了,你怎麼不趕緊跑(在古代,犯罪之後是要連坐的)?此時曾母並不相信,他說你看我兒子這麼賢能,他怎麼會殺人?你們肯定是在胡說,我不相信。然後她繼續淡定的織布,過了一會兒,來了第二個人跟曾母說,你兒子殺人了,這時曾母雖然表情非常淡定,但實際上心裡已經開始打鼓了,當第三個人對她說,你兒子殺人啦,你怎麼還在這?之後呢,曾母立刻扔下織布機,翻牆逃跑了。孔子知道了這件事之後,對曾母進行了非常嚴重的批判,說三人成虎,一則無心,二則疑,三則信矣。那麼今天要做的就是為曾母進行翻案,大家可以看到,其實曾母並不是不相信他的兒子,曾母是在基於自己對大數定律的理解而作出的判斷。當一個人說兒子殺人的時候,那麼他殺人的概率可能還不是很大,但是當隨著觀測到的樣本不斷增多的時候,當週圍所有的人都說兒子殺人的時候,那麼他沒殺人的概率其實就非常低了,這就是大數定律。我們工作中,建模的經驗也是這樣,一開始往往會對某個問題有些領域的認知,然後把這些認知變成一種人工的規則,但是隨著獲得的數據樣本逐漸增多,往往都會傾向於之後的規律變成一個學習的模型,基於這些數據來進行判斷,而不完全是之前歷史的人工的經驗。

大數定律的數學表達,可以用下面的不等式來表示:


百度機器學習課程 ①:機器學習可能嗎?


關於這方面的不等式有好幾個,這裡只以某一不等式來跟大家介紹下大數定律限定的表達。

不等式的左邊其實是一個概率,v 代表統計值,μ 代表真實值。μ-v>ϵ 這個概率說明 μ 和 v 存在一定差距的概率。不等式右邊,N 是觀測樣本,隨著觀測樣本的增多,右邊式子是趨近於0的,代表了左邊 μ 和 v 產生一個比較大的差距的概率是趨近於0的,也就是說當觀測樣本足夠多,統計值跟真實值是非常接近的。通過對大數定律的理解會發現,我們對這個世界的認知跟普通人不一樣的。觀測到綠色小球的概率是70%,這是普通人的一個認知。真正的統計學家的認知是這樣的,他會說真實的概率以90%的可能在65~75%之間,這樣認知世界的方式,我稱它為基於概率的信任。就是,我既不是相信,也不是不相信,而是以概率的形式去相信,這又叫做 PAC(Probably Approximately Correct)Learning,可以看到這個詞跟之前可以對應上,就是我們相信它是以一定的概率在某個觀測值的附近波動。

除了統計學家通過基於概率的信任的方式認知世界外,通過大數定律觀測到的樣本越多,得到統計的結論就越置信,這會聯繫到後面對大數據價值的講解。

最後回顧下案例3,基於大數定律,X 和 Y 之間的關係,是直線的概率要比曲線只是在抽樣的時候正好經過這五個點的概率要大的多。所以如果隨機選擇一百個點,抽樣之後它們之間的關係呈現的就是線性的,那基本可以100%確定,它們之間就是一個線性關係,而不是一條曲線,正好經過這一百個抽樣點。

通過這些案例和邏輯,我希望可以向大家清晰的介紹下,機器學習為什麼能夠學習。首先,它抄襲了人類學習的方式(歸納+演繹),但是這個過程中個案學習是不行的,必須統計去學習。而統計學習是基於什麼原理?是基於大數定律,基於概率的信任來學到知識。

"

相關推薦

推薦中...