機器學習瓶頸-從黑盒白盒之爭說起

機器學習英特爾物理人工智能 IT永動城 2017-04-04

瓶頸

任何事物的發展都會遇到瓶頸。半導體業界的摩爾定律在很長的一段時間裡面一直是有效的，但是在近幾年也快走到盡頭了。機器學習在AlphaGo戰勝人類棋手之後，名聲大噪，我也是在那次比賽之後開始研究機器學習的。機器學習這項技術是不是有一個天花板，這個天花板在哪裡，我們現在的技術發展離開這個天花板到底有多遠，我們是在地板上呢，還是快觸碰到天花板了呢？

在五年前，Intel公司的CEO就拋出了無法繼續摩爾定律的危機說。摩爾定律由英特爾聯合創始人戈登-摩爾（Gordon Moore）提出，意思是說：當價格不變時，集成電路上可容納的晶體管數目，約每隔 18 個月便會增加一倍，性能也將提升一倍。換言之，每一美元所能買到的電腦性能，將每隔 18 個月翻兩倍以上。這個定律雖然奏效了數十年，但是從2018年開始，這個定律就已經失效

黑盒白盒之爭

在知乎上有這樣一篇文章

大概的意思是用一個神經網絡來調控另一個神經網絡！

以前，雖然我們不知道AlphaGo是怎麼想的，但是我們知道它是怎麼學的，

以後，我們不但不知道AlphaGo是怎麼想的，我們還不知道它是怎麼學的！！！

人工智能到底是黑盒還是白盒？在評論裡面關於這個話題，大家產生了很大的分歧。作為傳統的程序員，我的觀點如下：當然如果您有時間，可以看一下評論，非常精彩。

1.ML 歸根到底是程序，如果LOG足夠多的話，如果你足夠耐心的話，你肯定可以知道，結果是如何產生的。
2.用神經網絡去優化神經網絡，其本質是一樣的，就想加法變成乘法，但是還沒有脫離實數的範圍，到達一個更高的維度。
3.ML的程序，包括無監督的程序，都是人寫的，都是按照人的想法在執行的，所以，為什麼人不知道機器是怎麼想的？即使這個程序表現得再不可思議，但結果應該都在人的預料之中。AlphaGo為什麼會做決定，背後是程序，程序的背後是寫程序的人的想法。除非是真正的隨機函數，不然，寫程序的人肯定知道程序是如何運行和預想結果的。
總結：不知道程序是怎麼想的，只是因為你不願意去閱讀程序的日誌和不願意調試程序。如果有無窮的時間，你單步調試所有的代碼，你肯定知道這個結果是怎麼來的。

如果整個機器學習慢慢進入黑盒的時代，則可以預測，瓶頸快到了。我們不知道機器到底是怎麼學習的，我們就無法進行改進。就像我們不知道雨水的形成機理，我們光在地上求雨是徒勞的。

隨機森林和Dropout

很多算法中，都可以看到隨機的影子，RF的話，也就是多次隨機抽取樣本，訓練模型，這些模型再進行平均操作。當然，這是根據中心極限理論得出的好方法。神經網絡的Dropout也是如此，隨機的將一些神經節點進行屏蔽。但是隨機就意味著失控，意味著人工很難干預結果。包括梯度下降，是否能收斂到全局最優解，很大程度上也是有運氣成分在裡面的。初始值，學習率都是影響結果的因素。

調參數和巨大模型

現在很多機器學習的比賽，已經從技術比拼轉向資源比拼了。

神經網絡的層數越來越長，越來越深，微軟的神經網絡是152層。

阿里巴巴的機器學習模型，已經是3GB的龐然大物了。

整個業界都從硬件和物理層面去獲得精度的收益了。

同時，超參數的選取，現在也都是經驗論:

神經網絡的層數

我們首先需要確定網絡的層數和每層的節點數。關於第一個問題，實際上並沒有什麼理論化的方法，大家都是根據經驗來拍，如果沒有經驗的話就隨便拍一個。然後，你可以多試幾個值，訓練不同層數的神經網絡，看看哪個效果最好就用哪個。嗯，現在你可能明白為什麼說深度學習是個手藝活了，有些手藝很讓人無語，而有些手藝還是很有技術含量的。

K聚類的K取多少，自然語言處理的主題模型，主題數選擇多少比較合適等等。都還沒有，或者難以找到理論依據。

機器學習還是數理統計

機器學習的本質就是數理統計？答案可能沒這麼簡單

如果從傳統意義上的數據分析師的觀點來說，這個問題的答案很簡單，無非是下面這兩點：
機器學習本質上是一種算法，這種算法由數據分析習得，而且不依賴於規則導向的程序設計；
統計建模則是以數據為基礎，利用數學方程式來探究變量變化規律的一套規範化流程。

有一種觀點就是機器學習只是數理統計的一個華麗包裝而已。

在自然語言處理裡面，原本是語言學家佔主導的，然後慢慢的統計學家開始佔上風，特別是在翻譯領域，基本上都是靠強大的計算能力和巨大的模型在處理問題，也就是說從規則到統計的轉變。

如果說，機器學習的本質還是統計學的話，統計學，概率學這些東西，其實已經發展到盡頭，很難再有什麼革命性的突破了。是不是也意味著機器學習也走到盡頭了呢？

腦科學研究

機器學習在很大程度上是對於大腦工作原理的仿生學。我覺得，機器學習的發展肯定和人類對於大腦研究的發展密不可分，神經網絡就是一個例子。也有可能在多年之後，我們會發現大腦的工作原理和我們現在的認知完全不同，這樣的話，當前的機器學習很有可能會被完全推翻，走向一條新的道路。

相關推薦

'能否加速破解暗物質之謎？大型強子對撞機，再加上機器學習算法'

"博科園：本文為粒子物理學類大型強子對撞機的每一次質子碰撞都不同，但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子（可能是新粒子、違反物理現象等）或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多，但改變的革新正在路上。費米實驗室的科學家和...

機器學習算法技術 Azure 電腦硬件物理中央處理器麻省理工學院歐洲 GPU 設計摩托車彼得·希格斯 2019-09-19

'如何優化人工智能、機器學習和深度學習的存儲'

"如今的人工智能和深度學習應用程序中使用了大數據集和快速I/O技術，但數據存儲可能會導致性能問題。人們需要了解人工智能和深度學習存儲系統應該具備哪些功能。人工智能技術廣泛應用在機器學習和深度學習中，已經引發了研究和產品開發的爆炸性增長，因為企業發現了創造性的方法，將這些新算...

人工智能深度學習機器學習設計操作系統算法軟件技術分佈式計算 GPU 硬件英偉達工程師人生第一份工作中央處理器電腦固態硬盤 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'機器學習和深度學習的區別是什麼'

"機器學習和深度學習是人工智能的兩個子集，在過去兩年中引起了很多關注。如果你在這裡想以最簡單的方式理解這兩個術語，那就沒有比這更好的地方了。人工智能這兩個領域，即機器學習和深度學習，提出了比整個領域組合更多的問題，主要是因為這兩個領域經常混淆並在提到數據統計建模時可以互換使...

機器學習深度學習人工智能算法技術軟件設計高德納集團人生第一份工作維基百科 2019-09-15

'AiLearning:一個 GitHub萬星的中文機器學習資源'

"關注微信公眾號：人工智能前沿講習，重磅乾貨，第一時間送達傳送門：ailearning.apachecn.orgGithub：github.com/apachecn/AiLearning這套名叫AI Learning的GitHub資源，彙集了30多名貢獻者的集體智慧，把學習...

GitHub 人工智能自然語言處理算法 2019-09-15

'機器學習&深度學習基礎（tensorflow版本實現的算法概述0）'

"tensorflow集成和實現了各種機器學習基礎的算法，可以直接調用。代碼集：https://github.com/ageron/handson-ml監督學習1）決策樹（Decision Tree）和隨機森林決策樹：決策樹是一種樹形結構，為人們提供決策依據，決策樹可以用...

機器學習算法深度學習隨機森林 2019-09-14

'機器學習：準確率、精確率、召回率、F1，選擇正確的模型評估指標'

"常用的分類算法評估指標大多如上，在具體模型評估指標使用時，並非一味的套用指標計算公式，給出計算結果，還需要結合算法模型的應用場景、數據集等等，比如我們習慣於使用準確率來評價分類算法，一方面是因為我們熟悉它，同時它也是一個很直觀的評價指標，但有些場景下，準確率高並不能代表這...

機器學習 F1賽車算法地震海嘯維基百科 2019-09-14

'蘋果首次公開對比華為，手機界老大之爭？'

"要說每年的秋季發佈會，iphone的發佈會自然是重頭戲，尤其是今年發佈會之前，蘋果多次霸佔熱搜榜榜單，無論好壞，熱度是真真的是足夠了，引起無數網民的熱烈討論。伴隨著無數人的期待，蘋果發佈會在今日凌晨如期舉行，這次的蘋果發佈會可謂是新鮮花樣層出不窮。首先，iPhone 11...

iPhone 華為公司我的第一部5G手機智能手機技術英特爾 GPU 中央處理器圖像處理跳槽那些事兒三星集團設計軟件高通人工智能 2019-09-14

'5G芯片之爭 | 中國搶跑5G商用時代'

"在即將到來的5G時代，國內的手機廠商都在積極準備著自己的5G手機。目前華為是唯一一家在國內已經推出了可以商用的5G手機廠商，並且華為還表示最快將會在本月底正式發貨。而其它的手機廠商們仍舊在等待一個“信號”，那就是高通的批准。為了搶佔5G先機，芯片之爭開始升溫。5G“卡位戰...

我的第一部5G手機技術華為公司高通中央處理器三星集團物聯網通信運營商 GPU 聯發科技 ARM 蘋果公司中興通訊 Wi-Fi 餘承東小米手機 OPPO PowerPoint 步步高vivo 人工智能勝利退出演藝圈 2019-09-13

'5分鐘內看懂機器學習和深度學習的區別'

"在本文中，我們將研究深度學習和機器學習之間的差異。我們將逐一瞭解它們，然後討論他們在各個方面的不同之處。除了深度學習和機器學習的比較外，我們還將研究他們未來的趨勢和走向。深度學習 VS 機器學習深度學習與機器學習簡介一、什麼是機器學習？通常，為了實現人工智能，我們使用機器...

人工智能算法自然語言處理技術信息檢索 GPU 人生第一份工作市場營銷隨機森林 2019-09-09

'機器學習之誤差反向傳播算法'

"機器學習之誤差反向傳播算法我們知道神經網絡是由大量的參數即權重構成，神經網絡的學習過程則是這些參數的變化更新過程。誤差反向傳播算法就是用於更新這些參數的。這裡我們假設激活函數為Sigmoid。Ps: 在吳恩達機器學習反向傳播算法課程中，而不是：這是因為吳恩達中使用的損失...

機器學習算法吳恩達人工智能 2019-09-09

'對話Swami：為什麼數萬個客戶選擇AWS實施機器學習？'

"作者|小葳8月底，以“智聯世界無限可能”為主題的2019世界人工智能大會（WAIC）成為科技界最受關注的盛會。AI應用落地成為今年WAIC的最大亮點之一。目前，中國人工智能產業正進入落地實踐階段。據相關機構測算，到2020年我國人工智能產業規模有望突破1600億元，帶動...

機器學習 2019世界人工智能大會 Amazon EC2 技術大數據亞馬遜公司虛擬機設計雲計算工程師算法無人駕駛 NoSQL 數據庫 SaaS 2019-09-08

'FABIE 觀察｜“工業之眼”取代人眼，機器視覺迎來投資機遇'

"FABIE視角近年來，隨著智能製造產業發展的需求、國家政策的大力扶持，我國機器視覺行業迎來了快速發展，但是由於機器視覺在國內的發展時間較短，目前在製造業的滲透率較低，且機器視覺行業集中度不高，尚未出現行業龍頭。同時由於國外的機器視覺發展多年，在核心軟硬件已經形成了較高壁壘...

技術投資圖像處理機器人軟件自然語言處理照相機人工智能硬件電腦創業 2019-09-07

'數據科學家不可不知的10種機器學習方法'

"作者 | CDA數據分析師10 machine learning methods that every data scientist should know機器學習是研究和工業中的熱門話題，新方法一直在發展。該領域的速度和複雜性使得即使對於專家而言也難以跟上新技術 - 並...

機器學習算法技術可視化技術人工智能數學隨機森林貨車建築 2019-09-07

'最新版《機器學習數學基礎》發佈，417頁PDF免費下載'

"【新智元導讀】《機器學習數學基礎》最新版 417 頁 pdf 版本已經放出，本書旨在激勵人們學習數學概念，包括數學基礎知識和使用數學基礎知識進行機器學習算法示例兩部分，值得收藏學習！由 Marc Peter Deisenroth，A Aldo Faisal 和 Cheng...

機器學習數學算法讀書歷史物理設計技術大學編程語言高中數學收藏 2019-09-07

'機器學習在ABR算法中的應用縱覽'

"本文整理自LiveVideoStack線上分享第三季，第五期，由清華大學計算機系網絡技術研究所博士生王莫為為大家介紹近些年ABR算法的發展，探討基於機器學習的ABR算法的優劣勢，並結合AiTrans比賽分析其在直播場景中的應用問題。文/王莫為整理/LiveVideoSta...

算法機器學習技術深度學習愛奇藝清華大學 YouTube 創作者來直播人工智能歷史 2019-09-07

'全棧工程師必備的進階教材：Python+數據分析+機器學習全套無償送'

"全棧工程師是指掌握多種技能，並能利用多種技能獨立完成產品的人。也叫全端工程師(同時具備前端和後臺能力)，英文Full Stack developer。什麼樣的人適合學習“ Python全棧 ”？一、零基礎、邏輯思維能力強如果你認為自己的邏輯思維能力很強，想通過學一門技術來...

Python 工程師機器學習數據庫技術人工智能物理數學編程語言大學 Linux 跳槽那些事兒彙編語言網絡爬蟲 SQL 英語大數據物聯網 2019-09-06

'每個數據科學家都應該知道的10種機器學習方法'

機器學習算法技術可視化技術人工智能數學貨車隨機森林建築 2019-09-06

'新藥研發、診斷疾病…機器學習如何改變醫療行業？'

"全文共1785字，預計學習時長3分鐘圖片來源：pexels.com/@pixabay醫療行業正生成著大量數據。如今，傳感器生成數據等新式數據收集方法為醫療行業贏得了領先地位。利用這些數據，可以用更低的成本提供更優質的醫療服務，並提高病人的滿意度——只要有機器學習(ML)技...

人工智能技術大數據圖像處理 Hadoop IBM 自然語言處理軟件癌症檔案腫瘤 2019-09-05

'2019年，機器學習的10種方式正在革新制造業'

"作者 | Louis Columbus來源 | CDA數據分析師10 Ways Machine Learning Is Revolutionizing Manufacturing In 2019人工智能有可能在全球業務的營銷和銷售中創造1.4T至2.6T的價值，在供應鏈管...

機器學習人工智能麥肯錫公司技術波士頓諮詢公司 Azure 投資算法德勤無人駕駛區塊鏈市場營銷原汁原味的德系SUV 微軟深度學習 2019-09-04

推薦中...