"

人工智能下一站是哪裡?

深度學習還能紅多久?

全球最頂尖的科學家,

共論AI的未來。

他們的眼光,

越過當下,

落在那個AI與人類共存的未來。

數據、算法、算力,人工智能三要素。如果說數據和算力是必要條件,決定了AI的過去,那麼算法作為“靈魂”,定義了AI的未來。

自人工智能概念被提出60多年來,幾起幾落,直到2012年深度學習技術被引入圖像識別和語音識別數據集之後,才進入真正爆炸期。如今,基於神經網絡的深度學習算法已經被廣泛應用甚至商業化,同時亦有諸多問題未能解釋,或者並無太好解決方案。

"

人工智能下一站是哪裡?

深度學習還能紅多久?

全球最頂尖的科學家,

共論AI的未來。

他們的眼光,

越過當下,

落在那個AI與人類共存的未來。

數據、算法、算力,人工智能三要素。如果說數據和算力是必要條件,決定了AI的過去,那麼算法作為“靈魂”,定義了AI的未來。

自人工智能概念被提出60多年來,幾起幾落,直到2012年深度學習技術被引入圖像識別和語音識別數據集之後,才進入真正爆炸期。如今,基於神經網絡的深度學習算法已經被廣泛應用甚至商業化,同時亦有諸多問題未能解釋,或者並無太好解決方案。

今天的內容你可能看不懂,全是關於AI算法的終極討論

深度學習算法之後是什麼?如何解決機器學習算法門檻高、算法人才不足的問題?如何打破數據孤島並且保護數據隱私?如何找到破解深度學習“黑箱”的方法?如何保證機器學習系統的安全性?

來自全球的人工智能“最強大腦”們,為你解答。

NELL

自我學習永不停止

人工智能技術正以一日千里的速度向前發展。2016年,阿爾法狗戰勝李世石時,人們還在討論這種有監督的學習,到底能不能算真正智能,如今,無監督的人工智能NELL自動學習的數據已經超過2500萬個。

機器學習之父、卡耐基梅隆大學計算機學院院長湯姆·米切爾和他的團隊,2010年便開始做一個項目——NELL(永恆語言學習)。

"

人工智能下一站是哪裡?

深度學習還能紅多久?

全球最頂尖的科學家,

共論AI的未來。

他們的眼光,

越過當下,

落在那個AI與人類共存的未來。

數據、算法、算力,人工智能三要素。如果說數據和算力是必要條件,決定了AI的過去,那麼算法作為“靈魂”,定義了AI的未來。

自人工智能概念被提出60多年來,幾起幾落,直到2012年深度學習技術被引入圖像識別和語音識別數據集之後,才進入真正爆炸期。如今,基於神經網絡的深度學習算法已經被廣泛應用甚至商業化,同時亦有諸多問題未能解釋,或者並無太好解決方案。

今天的內容你可能看不懂,全是關於AI算法的終極討論

深度學習算法之後是什麼?如何解決機器學習算法門檻高、算法人才不足的問題?如何打破數據孤島並且保護數據隱私?如何找到破解深度學習“黑箱”的方法?如何保證機器學習系統的安全性?

來自全球的人工智能“最強大腦”們,為你解答。

NELL

自我學習永不停止

人工智能技術正以一日千里的速度向前發展。2016年,阿爾法狗戰勝李世石時,人們還在討論這種有監督的學習,到底能不能算真正智能,如今,無監督的人工智能NELL自動學習的數據已經超過2500萬個。

機器學習之父、卡耐基梅隆大學計算機學院院長湯姆·米切爾和他的團隊,2010年便開始做一個項目——NELL(永恆語言學習)。

今天的內容你可能看不懂,全是關於AI算法的終極討論

(“機器學習之父”湯姆·米切爾)

NELL每天只做兩件事:第一,24小時不停蒐集網絡上的公開內容,豐富結構化的事實和知識的知識庫;第二,根據已有的文本和知識具備的知識抽取能力,優化自己的閱讀能力,從而通過自我學習、自我標註,不斷提升自我理解能力。湯姆認為,計算機是可以做到無監督學習的。

所謂有監督學習,是指機器對標註過的數據進行訓練,並將結果與預測結果進行比較,後進行修正,而無監督學習,則更有點像人類,數據沒有任何標註,也沒有人告訴計算機,這個數據用來做什麼,你的目的是什麼,計算機只能自我學習。

回溯NELL的“出生”,可能更利於人們瞭解它的模式。2010年,NELL剛開始時,湯姆放入了少量標註過的樣本,比如飲料、人、植物、城市等,並加入了一定的關係說明,比如說人創建了公司,飲料是食物產生的等等,然後在此基礎上,利用少量標註樣本集合訓練學習模型,再以此模型去標註更多樣本。

這些初始樣本類似“種子”,NELL從它這裡學到不同信息之間的關聯,然後將已知的關係和本體進一步擴展,對沒有事先標註的數據進行指導、分類,並納入知識庫。比如“楓葉的故鄉是加拿大,多倫多是屬於加拿大的一座城市”等等三元關係,都是在對海量、無意識的網絡信息進行篩選,並不斷和知識庫裡的知識進行疊加後,NELL自己得出的結論。

“事實上計算機是可以做到無監督學習的,它們每天都在提升水平,”湯姆·米切爾表示。“我們從傳統的單一函數學習框架擴展到了多函數,今天,我們已經擁有 4000 餘種分類方法,1.2億三元的數據知識庫,實現了前所未有的準確性。”

深度森林

“非神經”的深度學習

“現在我們每天都在談論深度學習,這種方法取得了巨大成功。但它到底是什麼?為什麼深比淺好?”南京大學計算機系主任、人工智能學院院長、歐洲科學院外籍院士周志華一直在思考一個問題,如果能搞懂深度學習到底做了什麼,是不是能實現那些目的的算法,就是好算法。

"

人工智能下一站是哪裡?

深度學習還能紅多久?

全球最頂尖的科學家,

共論AI的未來。

他們的眼光,

越過當下,

落在那個AI與人類共存的未來。

數據、算法、算力,人工智能三要素。如果說數據和算力是必要條件,決定了AI的過去,那麼算法作為“靈魂”,定義了AI的未來。

自人工智能概念被提出60多年來,幾起幾落,直到2012年深度學習技術被引入圖像識別和語音識別數據集之後,才進入真正爆炸期。如今,基於神經網絡的深度學習算法已經被廣泛應用甚至商業化,同時亦有諸多問題未能解釋,或者並無太好解決方案。

今天的內容你可能看不懂,全是關於AI算法的終極討論

深度學習算法之後是什麼?如何解決機器學習算法門檻高、算法人才不足的問題?如何打破數據孤島並且保護數據隱私?如何找到破解深度學習“黑箱”的方法?如何保證機器學習系統的安全性?

來自全球的人工智能“最強大腦”們,為你解答。

NELL

自我學習永不停止

人工智能技術正以一日千里的速度向前發展。2016年,阿爾法狗戰勝李世石時,人們還在討論這種有監督的學習,到底能不能算真正智能,如今,無監督的人工智能NELL自動學習的數據已經超過2500萬個。

機器學習之父、卡耐基梅隆大學計算機學院院長湯姆·米切爾和他的團隊,2010年便開始做一個項目——NELL(永恆語言學習)。

今天的內容你可能看不懂,全是關於AI算法的終極討論

(“機器學習之父”湯姆·米切爾)

NELL每天只做兩件事:第一,24小時不停蒐集網絡上的公開內容,豐富結構化的事實和知識的知識庫;第二,根據已有的文本和知識具備的知識抽取能力,優化自己的閱讀能力,從而通過自我學習、自我標註,不斷提升自我理解能力。湯姆認為,計算機是可以做到無監督學習的。

所謂有監督學習,是指機器對標註過的數據進行訓練,並將結果與預測結果進行比較,後進行修正,而無監督學習,則更有點像人類,數據沒有任何標註,也沒有人告訴計算機,這個數據用來做什麼,你的目的是什麼,計算機只能自我學習。

回溯NELL的“出生”,可能更利於人們瞭解它的模式。2010年,NELL剛開始時,湯姆放入了少量標註過的樣本,比如飲料、人、植物、城市等,並加入了一定的關係說明,比如說人創建了公司,飲料是食物產生的等等,然後在此基礎上,利用少量標註樣本集合訓練學習模型,再以此模型去標註更多樣本。

這些初始樣本類似“種子”,NELL從它這裡學到不同信息之間的關聯,然後將已知的關係和本體進一步擴展,對沒有事先標註的數據進行指導、分類,並納入知識庫。比如“楓葉的故鄉是加拿大,多倫多是屬於加拿大的一座城市”等等三元關係,都是在對海量、無意識的網絡信息進行篩選,並不斷和知識庫裡的知識進行疊加後,NELL自己得出的結論。

“事實上計算機是可以做到無監督學習的,它們每天都在提升水平,”湯姆·米切爾表示。“我們從傳統的單一函數學習框架擴展到了多函數,今天,我們已經擁有 4000 餘種分類方法,1.2億三元的數據知識庫,實現了前所未有的準確性。”

深度森林

“非神經”的深度學習

“現在我們每天都在談論深度學習,這種方法取得了巨大成功。但它到底是什麼?為什麼深比淺好?”南京大學計算機系主任、人工智能學院院長、歐洲科學院外籍院士周志華一直在思考一個問題,如果能搞懂深度學習到底做了什麼,是不是能實現那些目的的算法,就是好算法。

今天的內容你可能看不懂,全是關於AI算法的終極討論

(周志華)

1滿足三要素不一定非要神經網絡

“有一個錯誤的觀點認為,現在AI成功是因為有強大的算力,只要把老算法放在新機器上就可以了,”周志華說道,“事實上,訓練深層神經網絡的算力在20 世紀 90 年代就已經具備。但我們使用反向傳播方法(bp算法)訓練神經網絡需要做梯度優化,否則就會出現梯度消失問題。直到2006年,Geoffrey Hinton才通過逐層訓練的方法解決了這個問題。”

周志華認為,目前主流的深度神經網絡關鍵是,第一要有逐層的處理;第二要有特徵的內部變化;第三,要有足夠的模型複雜度。簡單來說,就是當一張圖片被計算機看到後,識別它的神經網絡有很多層,最底層識別到的可能只是像素,慢慢有邊緣,再往上有輪廓等等,模型不斷往上尋找這張圖片的特徵,而這個辨識特徵的模型是不斷可以向上分層的,最終一張圖可能被分成無數個特徵點,每一層的函數計算可能很簡單,但如果層級夠深,一層嵌套一層,模型足夠複雜,對圖片的識別能力就越強。

2012年ImageNet競賽時,冠軍只用了8層,到2016年已經可以做到1207層,現在更是超過了2000層,這是一個非常龐大的系統,深度神經網絡對算力的需求可想而知。

但反過來想,“只要做到這三點,我們就能做到一個好的深度神經網絡。而更重要的結論是:這三點猜測沒有說非要神經網絡不可,我們可以研究神經網絡之外的模型。”這是周志華和他的團隊提出“深度森林”的根本理論基礎。

2

“深度森林”首戰:找出非法套現者

“深度森林”也是深度學習的一種,但它並不是神經網絡,而是不使用BP算法訓練的深度模型,是基於決策樹的深度模型。

研究非神經網絡的意義在於,“機器學習早就知道,沒有任何一個模型可以包打天下。”周志華表示。

而且從應用價值的角度講,在圖像、視頻、語音之外的很多任務上,深度神經網絡往往並非最佳選擇,不少方面,比如符號建模、混合建模、離散建模等問題上,甚至表現不佳。

“深度森林”模型得到的結果和深度神經網絡高度相似,但和神經網絡不同的是,它不需要手動調整模型參數,可以自適應模型複雜度,可以用同樣一套參數,用在不同的任務中也不需要逐任務慢慢調參數,還可以根據數據的大小自動來判定該模型長到什麼程度。

這大大解決了神經網絡的黑盒子問題,並提升了混合數據建模後的計算效果。周志華曾與國內某金融公司合作對判斷“非法套現者”做了測試,需要做的是檢測出欺詐行為的潛在風險,以避免不必要的經濟損失。

從此前相關論文中可以看到,在訓練初期,測試組收集了四個方面的原始信息,包括描述身份信息的賣家特徵和買家特徵,描述交易信息的交易特徵和歷史交易特徵。如此,每當一次交易發生時,就能收集到超過 5000 維的數據特徵,其中包含了數值和分類特徵,而且有大量符號化的數據。

"

人工智能下一站是哪裡?

深度學習還能紅多久?

全球最頂尖的科學家,

共論AI的未來。

他們的眼光,

越過當下,

落在那個AI與人類共存的未來。

數據、算法、算力,人工智能三要素。如果說數據和算力是必要條件,決定了AI的過去,那麼算法作為“靈魂”,定義了AI的未來。

自人工智能概念被提出60多年來,幾起幾落,直到2012年深度學習技術被引入圖像識別和語音識別數據集之後,才進入真正爆炸期。如今,基於神經網絡的深度學習算法已經被廣泛應用甚至商業化,同時亦有諸多問題未能解釋,或者並無太好解決方案。

今天的內容你可能看不懂,全是關於AI算法的終極討論

深度學習算法之後是什麼?如何解決機器學習算法門檻高、算法人才不足的問題?如何打破數據孤島並且保護數據隱私?如何找到破解深度學習“黑箱”的方法?如何保證機器學習系統的安全性?

來自全球的人工智能“最強大腦”們,為你解答。

NELL

自我學習永不停止

人工智能技術正以一日千里的速度向前發展。2016年,阿爾法狗戰勝李世石時,人們還在討論這種有監督的學習,到底能不能算真正智能,如今,無監督的人工智能NELL自動學習的數據已經超過2500萬個。

機器學習之父、卡耐基梅隆大學計算機學院院長湯姆·米切爾和他的團隊,2010年便開始做一個項目——NELL(永恆語言學習)。

今天的內容你可能看不懂,全是關於AI算法的終極討論

(“機器學習之父”湯姆·米切爾)

NELL每天只做兩件事:第一,24小時不停蒐集網絡上的公開內容,豐富結構化的事實和知識的知識庫;第二,根據已有的文本和知識具備的知識抽取能力,優化自己的閱讀能力,從而通過自我學習、自我標註,不斷提升自我理解能力。湯姆認為,計算機是可以做到無監督學習的。

所謂有監督學習,是指機器對標註過的數據進行訓練,並將結果與預測結果進行比較,後進行修正,而無監督學習,則更有點像人類,數據沒有任何標註,也沒有人告訴計算機,這個數據用來做什麼,你的目的是什麼,計算機只能自我學習。

回溯NELL的“出生”,可能更利於人們瞭解它的模式。2010年,NELL剛開始時,湯姆放入了少量標註過的樣本,比如飲料、人、植物、城市等,並加入了一定的關係說明,比如說人創建了公司,飲料是食物產生的等等,然後在此基礎上,利用少量標註樣本集合訓練學習模型,再以此模型去標註更多樣本。

這些初始樣本類似“種子”,NELL從它這裡學到不同信息之間的關聯,然後將已知的關係和本體進一步擴展,對沒有事先標註的數據進行指導、分類,並納入知識庫。比如“楓葉的故鄉是加拿大,多倫多是屬於加拿大的一座城市”等等三元關係,都是在對海量、無意識的網絡信息進行篩選,並不斷和知識庫裡的知識進行疊加後,NELL自己得出的結論。

“事實上計算機是可以做到無監督學習的,它們每天都在提升水平,”湯姆·米切爾表示。“我們從傳統的單一函數學習框架擴展到了多函數,今天,我們已經擁有 4000 餘種分類方法,1.2億三元的數據知識庫,實現了前所未有的準確性。”

深度森林

“非神經”的深度學習

“現在我們每天都在談論深度學習,這種方法取得了巨大成功。但它到底是什麼?為什麼深比淺好?”南京大學計算機系主任、人工智能學院院長、歐洲科學院外籍院士周志華一直在思考一個問題,如果能搞懂深度學習到底做了什麼,是不是能實現那些目的的算法,就是好算法。

今天的內容你可能看不懂,全是關於AI算法的終極討論

(周志華)

1滿足三要素不一定非要神經網絡

“有一個錯誤的觀點認為,現在AI成功是因為有強大的算力,只要把老算法放在新機器上就可以了,”周志華說道,“事實上,訓練深層神經網絡的算力在20 世紀 90 年代就已經具備。但我們使用反向傳播方法(bp算法)訓練神經網絡需要做梯度優化,否則就會出現梯度消失問題。直到2006年,Geoffrey Hinton才通過逐層訓練的方法解決了這個問題。”

周志華認為,目前主流的深度神經網絡關鍵是,第一要有逐層的處理;第二要有特徵的內部變化;第三,要有足夠的模型複雜度。簡單來說,就是當一張圖片被計算機看到後,識別它的神經網絡有很多層,最底層識別到的可能只是像素,慢慢有邊緣,再往上有輪廓等等,模型不斷往上尋找這張圖片的特徵,而這個辨識特徵的模型是不斷可以向上分層的,最終一張圖可能被分成無數個特徵點,每一層的函數計算可能很簡單,但如果層級夠深,一層嵌套一層,模型足夠複雜,對圖片的識別能力就越強。

2012年ImageNet競賽時,冠軍只用了8層,到2016年已經可以做到1207層,現在更是超過了2000層,這是一個非常龐大的系統,深度神經網絡對算力的需求可想而知。

但反過來想,“只要做到這三點,我們就能做到一個好的深度神經網絡。而更重要的結論是:這三點猜測沒有說非要神經網絡不可,我們可以研究神經網絡之外的模型。”這是周志華和他的團隊提出“深度森林”的根本理論基礎。

2

“深度森林”首戰:找出非法套現者

“深度森林”也是深度學習的一種,但它並不是神經網絡,而是不使用BP算法訓練的深度模型,是基於決策樹的深度模型。

研究非神經網絡的意義在於,“機器學習早就知道,沒有任何一個模型可以包打天下。”周志華表示。

而且從應用價值的角度講,在圖像、視頻、語音之外的很多任務上,深度神經網絡往往並非最佳選擇,不少方面,比如符號建模、混合建模、離散建模等問題上,甚至表現不佳。

“深度森林”模型得到的結果和深度神經網絡高度相似,但和神經網絡不同的是,它不需要手動調整模型參數,可以自適應模型複雜度,可以用同樣一套參數,用在不同的任務中也不需要逐任務慢慢調參數,還可以根據數據的大小自動來判定該模型長到什麼程度。

這大大解決了神經網絡的黑盒子問題,並提升了混合數據建模後的計算效果。周志華曾與國內某金融公司合作對判斷“非法套現者”做了測試,需要做的是檢測出欺詐行為的潛在風險,以避免不必要的經濟損失。

從此前相關論文中可以看到,在訓練初期,測試組收集了四個方面的原始信息,包括描述身份信息的賣家特徵和買家特徵,描述交易信息的交易特徵和歷史交易特徵。如此,每當一次交易發生時,就能收集到超過 5000 維的數據特徵,其中包含了數值和分類特徵,而且有大量符號化的數據。

今天的內容你可能看不懂,全是關於AI算法的終極討論

可想而知,原始數據的維度高達5000維,其中很可能包含一些不相關的特徵屬性,如果直接使用的話,整個訓練過程將非常耗時,同時也將降低模型部署的效率。

事實上,與之前最好的MART模型相比 (由600個樹結構構成的MART模型),深度森林模型 (以MART模型為基礎模塊,每個 ART模塊只需200個樹結構) 能夠以更簡單的結構帶來更顯著的經濟效益,大大降低了經濟損失。

不過,“深度森林在實驗中做到21層就做不下去了,其中很大一部分原因在於沒有找到適合加速的硬件,”周志華表示,“現代的智能應用需要框架和特殊硬件,從另一個角度來看,打破神經網絡、GPU、TensorFlow 等硬件和技術的壟斷也可以降低智能化時代‘缺芯少魂’的風險。”

聯邦學習

打破信息間的不信任

人工智能的場景包括很多方面。在金融業,以用戶數超過1.7億的微眾互聯網銀行為例,人工智能和機器人在其中的作用是在用戶辦理業務的過程中,審核、批准各種貸款文件,對申請人進行人臉識別、語音識別的核驗等等。在這些應用中一個元素至關重要——數據。

1數據孤島依然難打破

實際上,直到今天,深度學習能夠運用到的數據仍然非常有限。比如在法律領域,積累一條有效的數據需要很長時間,而且法律的數據最多積累一萬條就很難再有量的突破;在金融領域、醫療領域更是如此。由於監管、安全、利益等原因,不同醫院之間的數據往往不能夠互相傳遞,在這個情況下,即便有強烈的需求把數據聚合起來還是很難。

此外,隨著歐洲GDPR的正式提出、國內相關法律的陸續出臺不難發現,社會對用戶隱私的要求越來越高,公司之間進行數據交換的限制也越來越多。在此情況之下,大數據的形成就變成一個挑戰。

"

人工智能下一站是哪裡?

深度學習還能紅多久?

全球最頂尖的科學家,

共論AI的未來。

他們的眼光,

越過當下,

落在那個AI與人類共存的未來。

數據、算法、算力,人工智能三要素。如果說數據和算力是必要條件,決定了AI的過去,那麼算法作為“靈魂”,定義了AI的未來。

自人工智能概念被提出60多年來,幾起幾落,直到2012年深度學習技術被引入圖像識別和語音識別數據集之後,才進入真正爆炸期。如今,基於神經網絡的深度學習算法已經被廣泛應用甚至商業化,同時亦有諸多問題未能解釋,或者並無太好解決方案。

今天的內容你可能看不懂,全是關於AI算法的終極討論

深度學習算法之後是什麼?如何解決機器學習算法門檻高、算法人才不足的問題?如何打破數據孤島並且保護數據隱私?如何找到破解深度學習“黑箱”的方法?如何保證機器學習系統的安全性?

來自全球的人工智能“最強大腦”們,為你解答。

NELL

自我學習永不停止

人工智能技術正以一日千里的速度向前發展。2016年,阿爾法狗戰勝李世石時,人們還在討論這種有監督的學習,到底能不能算真正智能,如今,無監督的人工智能NELL自動學習的數據已經超過2500萬個。

機器學習之父、卡耐基梅隆大學計算機學院院長湯姆·米切爾和他的團隊,2010年便開始做一個項目——NELL(永恆語言學習)。

今天的內容你可能看不懂,全是關於AI算法的終極討論

(“機器學習之父”湯姆·米切爾)

NELL每天只做兩件事:第一,24小時不停蒐集網絡上的公開內容,豐富結構化的事實和知識的知識庫;第二,根據已有的文本和知識具備的知識抽取能力,優化自己的閱讀能力,從而通過自我學習、自我標註,不斷提升自我理解能力。湯姆認為,計算機是可以做到無監督學習的。

所謂有監督學習,是指機器對標註過的數據進行訓練,並將結果與預測結果進行比較,後進行修正,而無監督學習,則更有點像人類,數據沒有任何標註,也沒有人告訴計算機,這個數據用來做什麼,你的目的是什麼,計算機只能自我學習。

回溯NELL的“出生”,可能更利於人們瞭解它的模式。2010年,NELL剛開始時,湯姆放入了少量標註過的樣本,比如飲料、人、植物、城市等,並加入了一定的關係說明,比如說人創建了公司,飲料是食物產生的等等,然後在此基礎上,利用少量標註樣本集合訓練學習模型,再以此模型去標註更多樣本。

這些初始樣本類似“種子”,NELL從它這裡學到不同信息之間的關聯,然後將已知的關係和本體進一步擴展,對沒有事先標註的數據進行指導、分類,並納入知識庫。比如“楓葉的故鄉是加拿大,多倫多是屬於加拿大的一座城市”等等三元關係,都是在對海量、無意識的網絡信息進行篩選,並不斷和知識庫裡的知識進行疊加後,NELL自己得出的結論。

“事實上計算機是可以做到無監督學習的,它們每天都在提升水平,”湯姆·米切爾表示。“我們從傳統的單一函數學習框架擴展到了多函數,今天,我們已經擁有 4000 餘種分類方法,1.2億三元的數據知識庫,實現了前所未有的準確性。”

深度森林

“非神經”的深度學習

“現在我們每天都在談論深度學習,這種方法取得了巨大成功。但它到底是什麼?為什麼深比淺好?”南京大學計算機系主任、人工智能學院院長、歐洲科學院外籍院士周志華一直在思考一個問題,如果能搞懂深度學習到底做了什麼,是不是能實現那些目的的算法,就是好算法。

今天的內容你可能看不懂,全是關於AI算法的終極討論

(周志華)

1滿足三要素不一定非要神經網絡

“有一個錯誤的觀點認為,現在AI成功是因為有強大的算力,只要把老算法放在新機器上就可以了,”周志華說道,“事實上,訓練深層神經網絡的算力在20 世紀 90 年代就已經具備。但我們使用反向傳播方法(bp算法)訓練神經網絡需要做梯度優化,否則就會出現梯度消失問題。直到2006年,Geoffrey Hinton才通過逐層訓練的方法解決了這個問題。”

周志華認為,目前主流的深度神經網絡關鍵是,第一要有逐層的處理;第二要有特徵的內部變化;第三,要有足夠的模型複雜度。簡單來說,就是當一張圖片被計算機看到後,識別它的神經網絡有很多層,最底層識別到的可能只是像素,慢慢有邊緣,再往上有輪廓等等,模型不斷往上尋找這張圖片的特徵,而這個辨識特徵的模型是不斷可以向上分層的,最終一張圖可能被分成無數個特徵點,每一層的函數計算可能很簡單,但如果層級夠深,一層嵌套一層,模型足夠複雜,對圖片的識別能力就越強。

2012年ImageNet競賽時,冠軍只用了8層,到2016年已經可以做到1207層,現在更是超過了2000層,這是一個非常龐大的系統,深度神經網絡對算力的需求可想而知。

但反過來想,“只要做到這三點,我們就能做到一個好的深度神經網絡。而更重要的結論是:這三點猜測沒有說非要神經網絡不可,我們可以研究神經網絡之外的模型。”這是周志華和他的團隊提出“深度森林”的根本理論基礎。

2

“深度森林”首戰:找出非法套現者

“深度森林”也是深度學習的一種,但它並不是神經網絡,而是不使用BP算法訓練的深度模型,是基於決策樹的深度模型。

研究非神經網絡的意義在於,“機器學習早就知道,沒有任何一個模型可以包打天下。”周志華表示。

而且從應用價值的角度講,在圖像、視頻、語音之外的很多任務上,深度神經網絡往往並非最佳選擇,不少方面,比如符號建模、混合建模、離散建模等問題上,甚至表現不佳。

“深度森林”模型得到的結果和深度神經網絡高度相似,但和神經網絡不同的是,它不需要手動調整模型參數,可以自適應模型複雜度,可以用同樣一套參數,用在不同的任務中也不需要逐任務慢慢調參數,還可以根據數據的大小自動來判定該模型長到什麼程度。

這大大解決了神經網絡的黑盒子問題,並提升了混合數據建模後的計算效果。周志華曾與國內某金融公司合作對判斷“非法套現者”做了測試,需要做的是檢測出欺詐行為的潛在風險,以避免不必要的經濟損失。

從此前相關論文中可以看到,在訓練初期,測試組收集了四個方面的原始信息,包括描述身份信息的賣家特徵和買家特徵,描述交易信息的交易特徵和歷史交易特徵。如此,每當一次交易發生時,就能收集到超過 5000 維的數據特徵,其中包含了數值和分類特徵,而且有大量符號化的數據。

今天的內容你可能看不懂,全是關於AI算法的終極討論

可想而知,原始數據的維度高達5000維,其中很可能包含一些不相關的特徵屬性,如果直接使用的話,整個訓練過程將非常耗時,同時也將降低模型部署的效率。

事實上,與之前最好的MART模型相比 (由600個樹結構構成的MART模型),深度森林模型 (以MART模型為基礎模塊,每個 ART模塊只需200個樹結構) 能夠以更簡單的結構帶來更顯著的經濟效益,大大降低了經濟損失。

不過,“深度森林在實驗中做到21層就做不下去了,其中很大一部分原因在於沒有找到適合加速的硬件,”周志華表示,“現代的智能應用需要框架和特殊硬件,從另一個角度來看,打破神經網絡、GPU、TensorFlow 等硬件和技術的壟斷也可以降低智能化時代‘缺芯少魂’的風險。”

聯邦學習

打破信息間的不信任

人工智能的場景包括很多方面。在金融業,以用戶數超過1.7億的微眾互聯網銀行為例,人工智能和機器人在其中的作用是在用戶辦理業務的過程中,審核、批准各種貸款文件,對申請人進行人臉識別、語音識別的核驗等等。在這些應用中一個元素至關重要——數據。

1數據孤島依然難打破

實際上,直到今天,深度學習能夠運用到的數據仍然非常有限。比如在法律領域,積累一條有效的數據需要很長時間,而且法律的數據最多積累一萬條就很難再有量的突破;在金融領域、醫療領域更是如此。由於監管、安全、利益等原因,不同醫院之間的數據往往不能夠互相傳遞,在這個情況下,即便有強烈的需求把數據聚合起來還是很難。

此外,隨著歐洲GDPR的正式提出、國內相關法律的陸續出臺不難發現,社會對用戶隱私的要求越來越高,公司之間進行數據交換的限制也越來越多。在此情況之下,大數據的形成就變成一個挑戰。

今天的內容你可能看不懂,全是關於AI算法的終極討論

在2019世界人工智能大會科學前沿的主論壇上,國際人工智能聯合會議理事會主席、香港科技大學教授楊強提出了一個新的解決方案——聯邦學習方法。

楊強表示,所謂聯邦學習的方法,就是如果我們有辦法讓數據的擁有方在數據不出本地的情況下,建立一個可以共享的模型,與此同時在建立模型的過程中不違反用戶的隱私,那麼整個建模的過程就叫聯邦學習的框架和算法。

眾安保險數據智能中心總經理孫谷飛告訴《IT時報》記者,聯邦學習2016年由谷歌提出,用來優化安卓輸入法的模型。比如,谷歌想給每個安卓手機優化輸入法,但不可能把每一臺安卓手機用戶打的文字都上傳上來,這有嚴重的隱私問題。所以想的方法是在基礎端學習本地的模型,把每一個參數上傳到“雲服務器”,並且在雲端進行模型的融合,最後再將優化的結果推送到客戶。

2

讓不同機構間有共同語言

“在保護隱私的過程中,一共有三種模式進行聯邦學習,分別是橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。”楊強說道。

橫向聯邦學習是不同的機構共享一些用戶的特徵,這些機構可以把這個模型通過橫向聯邦學習更新聚合,過程中可以保護隱私;縱向聯邦學習則是,不同的機構雖然不共享用戶的特徵,但是他們卻共享用戶的ID,可以利用這些散落在各地的數據形成一個整體的模型聯邦,對此加密之後,使得各個機構的數據不出本地就可以進行用戶隱私的保護;聯邦遷移學習則是,用遷移學習的算法把兩方數據的模型的本質給挖掘出來,把抽象的模型加以聚合,那麼在這個聚合的過程中就保護用戶隱私。

目前,聯邦學習在產業界的應用已經有了長足的進展,在第一屆國際聯邦學習的研討會上也開放了世界上首個聯邦學習的開源平臺。

"

人工智能下一站是哪裡?

深度學習還能紅多久?

全球最頂尖的科學家,

共論AI的未來。

他們的眼光,

越過當下,

落在那個AI與人類共存的未來。

數據、算法、算力,人工智能三要素。如果說數據和算力是必要條件,決定了AI的過去,那麼算法作為“靈魂”,定義了AI的未來。

自人工智能概念被提出60多年來,幾起幾落,直到2012年深度學習技術被引入圖像識別和語音識別數據集之後,才進入真正爆炸期。如今,基於神經網絡的深度學習算法已經被廣泛應用甚至商業化,同時亦有諸多問題未能解釋,或者並無太好解決方案。

今天的內容你可能看不懂,全是關於AI算法的終極討論

深度學習算法之後是什麼?如何解決機器學習算法門檻高、算法人才不足的問題?如何打破數據孤島並且保護數據隱私?如何找到破解深度學習“黑箱”的方法?如何保證機器學習系統的安全性?

來自全球的人工智能“最強大腦”們,為你解答。

NELL

自我學習永不停止

人工智能技術正以一日千里的速度向前發展。2016年,阿爾法狗戰勝李世石時,人們還在討論這種有監督的學習,到底能不能算真正智能,如今,無監督的人工智能NELL自動學習的數據已經超過2500萬個。

機器學習之父、卡耐基梅隆大學計算機學院院長湯姆·米切爾和他的團隊,2010年便開始做一個項目——NELL(永恆語言學習)。

今天的內容你可能看不懂,全是關於AI算法的終極討論

(“機器學習之父”湯姆·米切爾)

NELL每天只做兩件事:第一,24小時不停蒐集網絡上的公開內容,豐富結構化的事實和知識的知識庫;第二,根據已有的文本和知識具備的知識抽取能力,優化自己的閱讀能力,從而通過自我學習、自我標註,不斷提升自我理解能力。湯姆認為,計算機是可以做到無監督學習的。

所謂有監督學習,是指機器對標註過的數據進行訓練,並將結果與預測結果進行比較,後進行修正,而無監督學習,則更有點像人類,數據沒有任何標註,也沒有人告訴計算機,這個數據用來做什麼,你的目的是什麼,計算機只能自我學習。

回溯NELL的“出生”,可能更利於人們瞭解它的模式。2010年,NELL剛開始時,湯姆放入了少量標註過的樣本,比如飲料、人、植物、城市等,並加入了一定的關係說明,比如說人創建了公司,飲料是食物產生的等等,然後在此基礎上,利用少量標註樣本集合訓練學習模型,再以此模型去標註更多樣本。

這些初始樣本類似“種子”,NELL從它這裡學到不同信息之間的關聯,然後將已知的關係和本體進一步擴展,對沒有事先標註的數據進行指導、分類,並納入知識庫。比如“楓葉的故鄉是加拿大,多倫多是屬於加拿大的一座城市”等等三元關係,都是在對海量、無意識的網絡信息進行篩選,並不斷和知識庫裡的知識進行疊加後,NELL自己得出的結論。

“事實上計算機是可以做到無監督學習的,它們每天都在提升水平,”湯姆·米切爾表示。“我們從傳統的單一函數學習框架擴展到了多函數,今天,我們已經擁有 4000 餘種分類方法,1.2億三元的數據知識庫,實現了前所未有的準確性。”

深度森林

“非神經”的深度學習

“現在我們每天都在談論深度學習,這種方法取得了巨大成功。但它到底是什麼?為什麼深比淺好?”南京大學計算機系主任、人工智能學院院長、歐洲科學院外籍院士周志華一直在思考一個問題,如果能搞懂深度學習到底做了什麼,是不是能實現那些目的的算法,就是好算法。

今天的內容你可能看不懂,全是關於AI算法的終極討論

(周志華)

1滿足三要素不一定非要神經網絡

“有一個錯誤的觀點認為,現在AI成功是因為有強大的算力,只要把老算法放在新機器上就可以了,”周志華說道,“事實上,訓練深層神經網絡的算力在20 世紀 90 年代就已經具備。但我們使用反向傳播方法(bp算法)訓練神經網絡需要做梯度優化,否則就會出現梯度消失問題。直到2006年,Geoffrey Hinton才通過逐層訓練的方法解決了這個問題。”

周志華認為,目前主流的深度神經網絡關鍵是,第一要有逐層的處理;第二要有特徵的內部變化;第三,要有足夠的模型複雜度。簡單來說,就是當一張圖片被計算機看到後,識別它的神經網絡有很多層,最底層識別到的可能只是像素,慢慢有邊緣,再往上有輪廓等等,模型不斷往上尋找這張圖片的特徵,而這個辨識特徵的模型是不斷可以向上分層的,最終一張圖可能被分成無數個特徵點,每一層的函數計算可能很簡單,但如果層級夠深,一層嵌套一層,模型足夠複雜,對圖片的識別能力就越強。

2012年ImageNet競賽時,冠軍只用了8層,到2016年已經可以做到1207層,現在更是超過了2000層,這是一個非常龐大的系統,深度神經網絡對算力的需求可想而知。

但反過來想,“只要做到這三點,我們就能做到一個好的深度神經網絡。而更重要的結論是:這三點猜測沒有說非要神經網絡不可,我們可以研究神經網絡之外的模型。”這是周志華和他的團隊提出“深度森林”的根本理論基礎。

2

“深度森林”首戰:找出非法套現者

“深度森林”也是深度學習的一種,但它並不是神經網絡,而是不使用BP算法訓練的深度模型,是基於決策樹的深度模型。

研究非神經網絡的意義在於,“機器學習早就知道,沒有任何一個模型可以包打天下。”周志華表示。

而且從應用價值的角度講,在圖像、視頻、語音之外的很多任務上,深度神經網絡往往並非最佳選擇,不少方面,比如符號建模、混合建模、離散建模等問題上,甚至表現不佳。

“深度森林”模型得到的結果和深度神經網絡高度相似,但和神經網絡不同的是,它不需要手動調整模型參數,可以自適應模型複雜度,可以用同樣一套參數,用在不同的任務中也不需要逐任務慢慢調參數,還可以根據數據的大小自動來判定該模型長到什麼程度。

這大大解決了神經網絡的黑盒子問題,並提升了混合數據建模後的計算效果。周志華曾與國內某金融公司合作對判斷“非法套現者”做了測試,需要做的是檢測出欺詐行為的潛在風險,以避免不必要的經濟損失。

從此前相關論文中可以看到,在訓練初期,測試組收集了四個方面的原始信息,包括描述身份信息的賣家特徵和買家特徵,描述交易信息的交易特徵和歷史交易特徵。如此,每當一次交易發生時,就能收集到超過 5000 維的數據特徵,其中包含了數值和分類特徵,而且有大量符號化的數據。

今天的內容你可能看不懂,全是關於AI算法的終極討論

可想而知,原始數據的維度高達5000維,其中很可能包含一些不相關的特徵屬性,如果直接使用的話,整個訓練過程將非常耗時,同時也將降低模型部署的效率。

事實上,與之前最好的MART模型相比 (由600個樹結構構成的MART模型),深度森林模型 (以MART模型為基礎模塊,每個 ART模塊只需200個樹結構) 能夠以更簡單的結構帶來更顯著的經濟效益,大大降低了經濟損失。

不過,“深度森林在實驗中做到21層就做不下去了,其中很大一部分原因在於沒有找到適合加速的硬件,”周志華表示,“現代的智能應用需要框架和特殊硬件,從另一個角度來看,打破神經網絡、GPU、TensorFlow 等硬件和技術的壟斷也可以降低智能化時代‘缺芯少魂’的風險。”

聯邦學習

打破信息間的不信任

人工智能的場景包括很多方面。在金融業,以用戶數超過1.7億的微眾互聯網銀行為例,人工智能和機器人在其中的作用是在用戶辦理業務的過程中,審核、批准各種貸款文件,對申請人進行人臉識別、語音識別的核驗等等。在這些應用中一個元素至關重要——數據。

1數據孤島依然難打破

實際上,直到今天,深度學習能夠運用到的數據仍然非常有限。比如在法律領域,積累一條有效的數據需要很長時間,而且法律的數據最多積累一萬條就很難再有量的突破;在金融領域、醫療領域更是如此。由於監管、安全、利益等原因,不同醫院之間的數據往往不能夠互相傳遞,在這個情況下,即便有強烈的需求把數據聚合起來還是很難。

此外,隨著歐洲GDPR的正式提出、國內相關法律的陸續出臺不難發現,社會對用戶隱私的要求越來越高,公司之間進行數據交換的限制也越來越多。在此情況之下,大數據的形成就變成一個挑戰。

今天的內容你可能看不懂,全是關於AI算法的終極討論

在2019世界人工智能大會科學前沿的主論壇上,國際人工智能聯合會議理事會主席、香港科技大學教授楊強提出了一個新的解決方案——聯邦學習方法。

楊強表示,所謂聯邦學習的方法,就是如果我們有辦法讓數據的擁有方在數據不出本地的情況下,建立一個可以共享的模型,與此同時在建立模型的過程中不違反用戶的隱私,那麼整個建模的過程就叫聯邦學習的框架和算法。

眾安保險數據智能中心總經理孫谷飛告訴《IT時報》記者,聯邦學習2016年由谷歌提出,用來優化安卓輸入法的模型。比如,谷歌想給每個安卓手機優化輸入法,但不可能把每一臺安卓手機用戶打的文字都上傳上來,這有嚴重的隱私問題。所以想的方法是在基礎端學習本地的模型,把每一個參數上傳到“雲服務器”,並且在雲端進行模型的融合,最後再將優化的結果推送到客戶。

2

讓不同機構間有共同語言

“在保護隱私的過程中,一共有三種模式進行聯邦學習,分別是橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。”楊強說道。

橫向聯邦學習是不同的機構共享一些用戶的特徵,這些機構可以把這個模型通過橫向聯邦學習更新聚合,過程中可以保護隱私;縱向聯邦學習則是,不同的機構雖然不共享用戶的特徵,但是他們卻共享用戶的ID,可以利用這些散落在各地的數據形成一個整體的模型聯邦,對此加密之後,使得各個機構的數據不出本地就可以進行用戶隱私的保護;聯邦遷移學習則是,用遷移學習的算法把兩方數據的模型的本質給挖掘出來,把抽象的模型加以聚合,那麼在這個聚合的過程中就保護用戶隱私。

目前,聯邦學習在產業界的應用已經有了長足的進展,在第一屆國際聯邦學習的研討會上也開放了世界上首個聯邦學習的開源平臺。

今天的內容你可能看不懂,全是關於AI算法的終極討論


孫谷飛透露,在保險行業的業務場景裡,目前聯邦學習的方式分為兩類。第一類是行業內共享,大家有差不多相同的X值和Y值,可以促進整個行業的數據共享和積累,主要涉及聯合風控和定價,比如意外險累計的保額。舉個例子,去年有一個用戶短期之內在很多保險公司買了非常高額的意外險,這是很典型的欺詐行為,如果大家把累計保額通過隱私方式共享出來,可以很好杜絕此類風險。

第二類場景是跨行業共享。各場景方X軸可以給保險公司更好的補充,讓保險公司可以多方面瞭解客戶,比如做各種互聯網的險種,可以跟一些電商公司進行合作,瞭解平常的一些購買行為,就可以很好地做運費險定價。

楊強表示,目前他和團隊正在建立一個國際聯邦學習的標準,使得不同的機構之間可以有共同的語言,這樣在建立聯邦學習共同模型的時候,各方可以更敏捷地溝通。


作者/郝俊慧 李丹琦

編輯/挨踢妹

圖片/網絡

來源/《IT時報》公眾號vittimes

"

相關推薦

推薦中...