獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

大數據百度雲人工智能 PowerPoint THU數據派 THU數據派 2017-09-17

近日，2017國際大數據產業技術創新高峰論壇在清華大學成功舉辦。論壇邀請了政府、學術界和產業界與大數據有關的嘉賓齊聚一堂，通過大數據系統軟件技術的跨界合作與國際交流，建立和完善大數據領域的技術創新平臺，集聚整合創新資源，加強“產學研用”結合，共同探討大數據系統軟件的發展現狀和未來方向。

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

本文節選於百度副總裁、百度AI技術平臺體系總負責人兼百度研究院院長、國際計算語言學協會（Association for Computational Linguistics）前主席王海峰先生在本屆高峰論壇的主題演講《百度人工智能》，演講精華內容經數據派THU整理如下：

後臺回覆關鍵詞“0911”，下載王海峰演講PPT。

人工智能是第四次工業革命

從18世紀開始，隨著技術的發展，以及需求的牽引，人類逐漸開始進入技術革命或工業革命。歷史上的工業革命有三次，可以大致歸納為第一次機械化革命、第二次電氣化革命和第三次的信息化革命，而第四次工業革命則是以智能化——人工智能（Artificial Intelligence，英文縮寫為AI）——為標誌的。

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

回顧一下人工智能的發展歷史，正式的起點是1956年的達特茅斯會議，誕生了AI這個概念。而在1956年之前，已經出現了至今仍然很熱門的一些人工智能方向，例如機器翻譯、自然語言處理、計算機下棋、神經網絡等等。而從AI誕生以來的60多年，人工智能的發展起起落落，從下面的圖中可見一斑。

過去10年，隨著深度學習的出現，更重要的是“數據井噴”，以及數據支撐的算法和計算能力的突破，尤其是在語音、圖像等領域，人工智能再次迎來了發展的新機遇。而這一次的復興即將帶動整個社會產生深層次的變革，這是我們已經可預見的未來。這次人工智能的爆發，在很大程度上是從互聯網開始的，而互聯網帶來了很多需求，包括搜索、社交、購物等等。這些需求越來越多的線上化，同時帶動了數據的線上化。

數據真正線上化以後，也帶動了更多的算法去處理這些數據，而需求和數據的在線化也帶動了整個生態的活躍，進而使越來越多的數據開放出來，依託更強大的計算平臺，結合更好的AI算法，實現計算能力的突破。比如現在大家常用的GPU，利用深度學習、深度神經網絡算法，就有非常強大的優勢。大數據、算法和大計算這三者儼然成為了人工智能復興的必要條件。

百度人工智能已經揚帆起航

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

百度從做搜索開始，人工智能的研究和發展已經有十幾年了，如自然語言處理基礎的分詞、短語分析等。而全面佈局人工智能大概是在七、八年以前，逐步從NLP、語音、機器學習、圖像等方面開始，時至今天，百度已經形成了一個較完整的人工智能技術佈局，包括基礎層、感知層、認知層、平臺層、生態層和應用層，共計六層。

數據、算法和計算平臺是基礎。感知層對應人的視覺、聽覺，這些能力是直接感知外界。認知層對應的是人類區別於其他生物特有的，比如人的語言能力、人類對知識的總結、理解、提煉、運用等等，以及對人的理解。AI的開放平臺不僅支持百度內部的應用還支持所有的合作伙伴，現已開放了60多個能力，在公司內部，每天大概有幾千億的調用量，而在外部也有數以億計的調用。在此基礎上，百度希望跟所有各行各業的合作伙伴一起打造技術的平臺，形成良性循環的生態，從而生長出各種各樣的創新應用。

百度從做互聯網To C（針對消費者）的產品到開始做大量支持To B（面向企業服務）的應用。這些都依賴於人工智能技術佈局的實現。下面將對每層技術佈局的關鍵技術展開說明。

一、基礎層：大數據、算法和大計算

現在每一個人每一天會產生非常多的數據，如個人的行為、生理狀態的變化，如果要監測、記錄的話，都有非常龐大的數據。況且，每一個人每天都在跟互聯網打交道，或者是自己建網站，或者向網上貢獻數據，甚至在使用互聯網過程中，也會產生很多數據。一定程度上，互聯網已經成為整個客觀世界的鏡像。所以，掌握好、利用好、分析好這些互聯網數據，在很大程度上也是對客觀世界很重要的刻畫和理解。

總體上，大數據技術分為幾個方面，比如數據的採集、提煉以及應用。如果對一個零售商店數據裡的用戶進行建模，某一個用戶可能是白領，另一個是主婦，這樣的行業數據經過分析就可以幫助商戶更好地進行營銷行為。另一方面，百度基礎的計算載體是數據中心，有20多個大型的數據中心，不只是在中國，在世界各地都設立了大數據中心，也有國內最大的GPU集群，有非常強的帶寬和吞吐能力，還有像集裝箱一樣，模塊化的計算中心。

二、感知層：語音、圖像、視頻、AR/VR

語音技術的突破有很多方向，如識別、合成和喚醒，這是我們現在比較看重的，因為市場應用的需求很大。比如語音識別，已經達到97%以上的準確率。現在隨著人工智能應用的深入，在家居場景、車載場景等等，越來越多的語音識別不是對著麥克風說，而是要有一定距離，這就涉及到遠場的語音識別。這與現在手機上的麥克風不一樣，首先會有定位，還有一系列新的技術待解決。合成想做得非常好，特別自然、流暢，而且可以是個性化的，包括把人的情緒變化等都帶進去，就變得非常難。

這裡不只是語音和聲學信號處理問題，同時涉及到對語言的理解、對人的理解，這樣才能做出有情緒、個性化的合成。喚醒，是需要設備的時候就叫一聲，它就知道你要跟它說話，比如家居場景的一個智能音箱或者智能電視，這時候就需要喚醒技術。喚醒技術的困難在於我們要控制誤喚醒，比如在家裡放一個智能音箱，如果不叫它的時候，忽然之間它自己就跳起來了，或者睡覺的時候，有點外界噪音，它就忽然跳起來，體驗會很差。所以，控制住誤喚醒很重要也很有挑戰。

圖像方面，人臉識別是計算機視覺的一個重要方向。人臉分為靜態和動態。靜態，如一張圖片，檢測裡面有沒有人臉，或者有兩張照片，比對一下兩處出現的是不是同一個人，這方面的準確率已經很高了。而識別動態圖像的時候更復雜一點，比如有一段視頻，首先要定位這些人臉，而這裡會產生很多應用，比如在很長的視頻流裡找到一個人。

另外，我們可以對圖像進行識別匹配，做語義的標註，粒度很細，如一幅圖裡很具體地找到其中一個部分是什麼，這裡可以做很多細粒度的圖像識別。OCR是圖像識別裡相對具體的方向，如清華也有OCR方向做得非常好的老師和課題組。現在OCR技術不僅可以掃描書，更可以識別一個表格或者一個很複雜的結構，如發票，不但把裡面的文字識別出來，還可以把一個區域識別出來的文字結構化，整體上會做很多定製化的識別。

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

視頻不同於圖像有很多權威的數據集，視頻數據集本身還不夠成熟。視頻很多是人工標註好的，比如標題、內容，但是還有很多視頻人工標註不夠完善，這時候就需要視頻語義理解技術把這個視頻標註出來，包括這個視頻到底是哪一類，視頻的標題，如果相對長的視頻，就把其中亮點怎麼樣也摘錄出來。

機器人視覺涉及到怎麼樣做定位，做地圖的重建，包括檢測障礙物等等。領先的SLAM技術，有很多算法。前面講的圖像和視頻技術，在機器人視覺裡都會有應用。增強現實（AR/VR）是一個獨立的方向，但是跟視覺技術有很多關係，通常拍一個照片，會觸發出增強現實的效果，相應地會涉及到三維感知、跟蹤、渲染等技術。

三、認知層：自然語言處理、知識圖譜和用戶畫像

自然語言處理的範圍廣泛，如果細分的話，有很多子領域，較宏觀地可劃分為語言的理解和生成，以及相應的應用系統。一方面要理解人的語言，另一方面要表達，能生成語言。比如，基本的分詞、短語分析，核心的解決思路就是做句法的分析和語義的理解或意圖的理解。如搜索“想去一家寵物醫院，醫院附近要有停車位”。這是人的一種自然的表達，如果讓計算機能夠理解，就要把意圖提取出來，從很複雜的話中分析出其核心意圖，然後再去找相應的答案。

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

圖示：用傳統信息檢索和搜索算法搜索“蔣英的女兒是誰”和“蔣英是誰的女兒”，會找到同樣的答案，因為傳統的信息檢索是不管語序的。這時候我們就要做真正的自然語言分析和理解，知道它們實際上是在找不同的答案。這背後是知識圖譜的支撐，大家可以看到結構化的圖文並茂的結果。

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

我們看一篇文章、一本書，這時候不僅僅是理解其中每一句話，而是對整篇文章有一個理解，就是篇章的理解。篇章的理解，可以把整個篇章打上主題標籤，打上各種實體標籤，而這些對計算機來講就是理解了這篇文章。在應用時，為了不同的應用，標籤會有不同的形式，如用在資訊流裡，打上這些標籤以後，就可以匹配用戶的興趣，從而推薦給用戶一篇他可能感興趣的文章。

除了理解句子、篇章、文字以外，人寫一句話、寫一首詩亦或寫一篇文章，都是帶有情感傾向的，所以相應地，我們也做情感傾向的分析，包括用戶看了一篇文章以後，下面有很多評論，這些評論本身我們也會做觀點的抽取。

除了分析、理解以外，還有生成。我們嘗試過寫詩、寫對聯等，比如在手機百度信息流裡看到的文章，很多都是人寫的，但也有很大一部分是機器自動寫成的。我們做過各種測試，用戶基本上分辨不出來到底是人寫的還是機器寫的，這說明機器寫的還是很不錯的。其次，人要與智能硬件展開交互，對話過程中涉及到對“人說的話”的理解和預測人如何說下一句話，相當於理解和生成兩方面都在用，這裡面就是對話管理以及交互的技術。

到目前為止，我們講的都是一種語言，都是中文，但“百度翻譯”是解決多語言問題的，在28種語言之間互譯，互譯的方向大概是700多個，每天有過億次的翻譯請求。同時也結合了語音技術、視覺技術，延伸出了語音會話翻譯、拍照翻譯等等應用。

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

人類幾千年傳承下來的知識，是人類能一步一步不斷向前進步的原動力，而做這些知識的累積和傳承很重要的載體是知識圖譜，知識圖譜裡面一些基本的單位，如實體，現在我們的知識圖譜已經有幾億個實體，每個實體會有很多屬性，實體與實體之間也會有很多關係，這些關係就構成很多事實，如A和B兩個人可能是老師和學生的關係，這就是一個事實，我們已經積累了幾千億事實。

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

知識不只是靜態的存取，而且涉及到知識計算和推理。比如，離聖誕節還有多少天，系統知道今天是哪一天，聖誕節是哪一天，系統會以此動態做一個計算。再比如，民航有一些規章，基於這些規章問一個問題，能不能“帶打火機上飛機”，系統會根據這些規章的規則，判斷這個問題的答案是“是”還是“否”。其次，我們要了解用戶本身的需求，所以對用戶畫像也是非常重要的方向。現在百度積累了非常豐富的用戶畫像，有非常多細分的標籤，如一個人可以從人口屬性、行為習慣、長期興趣、位置、短期意圖等五個維度去刻畫，形成初級的用戶畫像，構建個體模型。

四、平臺以及生態層

這一層更多集中在百度大腦（ai.baidu.com），完整的生態包括雲和端兩大部分。百度雲是很大的計算平臺，不只是百度可以用，而且開放給所有的合作伙伴，變成基礎的支撐平臺，上面有百度大腦的各種能力。同時還有一些垂直的解決方案，比如基於自然語言的人機交互的新一代操作系統，以及與智能駕駛相關的Apollo。整車廠商可以調用其中他們需要的能力，汽車電子廠商也可以調用他們需要的相應能力，大家共建整個平臺和生態。

五、應用層

語音搜索，是典型的在搜索上引入一些AI能力之後的產品形態，這裡不是一個“語音識別+簡單的搜索”，而是我們直接語音輸入我們想要的字的時候，如果出現多音字，如儷、莉，就會出現錯誤，但如果用戶說：“茉莉的莉”，語音糾錯就會自動修改成“莉”，然後找到用戶最終想要的答案。所以這就需要很多相關技術的支持。圖像搜索也是，我們做了很多圖像搜索相關的嘗試。

例如，找題很困難，很多學生做題，題裡有圖、有公式，想把內容輸入進去就很難，所以拍照就變成特別方便的方式，這裡就會結合OCR的技術，對圖像做識別。智能問答、個性化推薦等同樣是綜合了多種AI能力，如知識圖譜、NLP、用戶理解等，把答案或資訊更直觀、更有針對性地展現給用戶。除了互聯網應用，我們也在嘗試AI能力與各行各業的結合，如智能客服、智慧機場等。

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

人工智能正在成為這個時代技術變革的核心驅動力，AI在To B領域的滲入將會給各行各業帶來革命性的改變，也會對人們的日常生活產生巨大的影響。人工智能應用廣泛，其實際作用絕不僅僅在互聯網，就像我們已經很難想象任何一個行業離開電該如何運轉一樣，人工智能也會是新時代的電力。

可以預見，人工智能必將無處不在。

關注清華-青島數據科學研究院官方微信公眾平臺後臺回覆關鍵詞“0911”，下載王海峰演講PPT。

獨家｜王海峰首談百度AI戰略佈局（附PPT下載）

相關推薦