50個月,百度人工智能走了一條與眾不同的路

人工智能 百度金融 深度學習 機器學習 中關村在線 2017-05-14

從2013年1月李彥宏提出設立深度學習研究院到今天,百度全面發展人工智能戰略已經整整50個月。在這50個月裡,百度沒有將人工智能鎖在實驗室裡,而是走了一條與眾不同的實用主義之路。

50個月,百度人工智能走了一條與眾不同的路

【→有流量可直接看視頻,時間:16分45秒】

【→流量限制可看圖文,3432字約12分鐘】

◆ 百度的AI基因

百度在人工智能領域佈局之早、力度之大在中國互聯網公司中堪稱榜首,連馬化騰都在剛剛結束的IT領袖峰會上都承認:“在人工智能領域,Robin(百度)走的更靠前,騰訊還是落後不少的”。

百度如此激進,或許因為移動紅利的錯失讓其倍感壓力。不過,百度現在已經找到了反攻方向:據不完全統計,李彥宏去年在公開場合共提到了513次人工智能,更是在2016年百度世界大會上,宣佈百度將徹底轉型為一家人工智能公司。百度研究院院長林元慶在接受中關村在線記者獨家視頻專訪時表示:“外界確實有很多誤會,覺得百度突然提人工智能,是不是在趕潮流。完全不是,百度從產品和用戶需求出發,在人工智能技術上已經佈局很多年,如今人工智能已經成為百度最核心的技術,對產品的貢獻也非常重要,這種戰略過渡在百度內部看來是順勢而為,一點也不突兀。”

人工智能技術已經融入到了百度各層級的產品中,其中百度搜索是人工智能技術應用的典型代表。從關鍵詞的分析到結果的提取和排序,都融合了百度的人工智能技術。對於一些答案非常明確的問題檢索,比如“奧巴馬戴的手錶是什麼”,人工智能技術會自動解析問題的含義,提出信息點,然後在搜索結果中直接給出答案。搜索操作看起來好像是非常簡單的數據庫檢索排序,但是林元慶院長告訴我們如果要得到準確合理的結果,背後離不開人工智能技術的支持。“人工智能要對返回的結果自動過濾,一些反動的、涉黃的內容都不能出現。如果用戶搜索一個詞語,結果中包含圖像信息的,人工智能還需要對圖像信息有理解。如果用戶直接搜索一張圖片,人工智能要能夠了解圖片中的信息,再調取結果。”在百度人工智能圖像識別能力逐步提升後,百度為大部分搜索結果都會匹配一張圖片,幫助用戶直觀瞭解每一條搜索結果的內容。

50個月,百度人工智能走了一條與眾不同的路

百度研究院院長林元慶

在百度金融事業部,人工智能技術的重要性完全不亞於搜索業務。身份認證是金融行業所有業務至關重要的基礎,如何能夠在線上完成人臉識別和身份認證,且精準度跟線下一致,是對人工智能技術最大的考驗,如果百度能夠達成,將在金融領域收穫極大的發展空間。“徵信領域,如果百度在大數據、人工智能上做的足夠好,我們能夠知道用戶的信用好不好,償還貸款的可能性有多大,金融領域我們就有很大的機會。金融我們很難跟銀行比,我們能比的就是人工智能能力。”

另外,百度在無人車領域正在積極嘗試,希望用人工智能改變整個出行行業;在人機交互方面,度祕OS操作系統也在逐步擴展更多的合作伙伴……

人工智能已經成為百度每一個產品的基因,林元慶將人工智能比作工業革命時期的蒸汽機,將給百度以及整個產業帶來新一波的升級,通過與各行各業的深度融合,掀起新一輪的經濟熱潮。

◆ 《最強大腦》——百度AI的“圖靈測試”

在AlphaGo、Master相繼橫掃人類圍棋高手之後,人機大戰迎來了電視史上的首秀。在以人類腦力競技為主要訴求的電視科學競技真人秀節目《最強大腦》上,作為人工智能代表的百度“小度”機器人與人類選手進行了對決,最終以微弱優勢摘得“腦王”桂冠。

50個月,百度人工智能走了一條與眾不同的路

人類大腦對決人工智能

半年前,百度接到了江蘇衛視《最強大腦》節目組的邀約,希望進行一場人機對決。雖然僅被告知對決主題是人臉識別,並不知道詳細比賽規則,時任百度首席科學家的吳恩達和IDL(百度深度學習實驗室)負責人的林元慶還是非常興奮的,他們將這次節目的錄製當成了一次特殊的“圖靈測試”。“之前有人做過普通人跟機器的PK,但是機器和這些腦王的PK還是第一次,我們也希望看看我們的人工智能技術究竟能達到什麼水平,這個項目做下來,對我們整個人臉識別技術的促進還是非常大的。”林元慶在採訪中表示。

這場人機對決比拼的是人臉識別中的跨年齡識別任務,共分兩輪:第一輪,在現場表演嘉賓的動態錄像表演中,挑出與2張童年照相對應的2位表演嘉賓。第二輪,從30張小學集體照中找出現場一位已經30歲以上的觀眾的位置。由於在第一輪第2個對象的識別中,“小度”在雙胞胎中成功找到了匹配對象,而人類選手失利,導致最終總比分“小度”3:2戰勝人類選手。

百度的人臉識別技術採用的是深度學習的算法,通過人臉檢測、人臉圖像預處理、人臉圖像特徵提取、人臉圖像匹配與識別四個步驟完成最終的人臉識別任務。

50個月,百度人工智能走了一條與眾不同的路

百度的人臉識別流程圖

第一步,人臉檢測。機器根據人臉器官以及相互之間的幾何位置關係來檢測人臉以及大小、位置等信息。

50個月,百度人工智能走了一條與眾不同的路

機器人臉檢測

第二步,人臉圖像預處理。機器將對圖片進行灰度校正、噪聲過濾、人臉對準、人臉圖像增強等預處理。

第三步,人臉圖像特徵提取。機器將人臉分成七個部分,提取相應的特徵,這也是對人臉進行特徵建模的過程。

50個月,百度人工智能走了一條與眾不同的路

人臉圖像特徵提取

第四步,人臉圖像匹配與識別。將待識別的人臉特徵與已得到的人臉特徵模板進行比較,根據相似程度對人臉的身份信息進行判斷。

《最強大腦》中設置的識別跨年齡人物的臉是人臉識別中比較難的課題,除了受到光照、表情、遮擋、姿態等因素的影像,年齡的變化也給機器學習造成了極大障礙。由於跨年齡的訓練數據收集難度比較大,也限制了機器基於大數據的深度學習過程。

根據林元慶介紹,針對人臉識別,百度已經建立了一個包含200萬人、2億數據的圖片庫作為訓練樣本數據,因此在內部數據上,截止到2016年9月,百度的人臉識別技術已經可以做到2.3%的錯誤率。

通過《最強大腦》這次“圖靈測試”之後,百度在通用人臉識別能力基礎上做了很多優化,節目錄制完成後,百度與寶貝回家平臺合作,將人工智能的跨年齡人臉識別技術應用於尋找走失兒童中,超過6萬條尋親圖片數據接入百度跨年齡人臉識別系統進行對比分析,通過對孩子與父母上傳的照片做比對,已經初步篩選出30例疑似案例,並且成功幫助一位33歲男子尋找到親人。

◆ 百度AI的閉環生態

人工智能的發展離不開三大元素:深度學習、計算、大數據,但是在百度AI的邏輯中還包含至關重要的第四元素——應用。在百度看來,人工智能走出實驗室擁抱具體應用和產品意義重大。

這個觀念與百度年初剛剛空降的“救兵”陸奇的觀念非常契合,陸奇雖然是技術出身,但是卻有超強的實用理念,他在加盟百度的第一天就強調人工智能系統不能脫離應用,如果沒有應用就沒有數據,就沒辦法繼續開發新產品。

至此,百度AI的完整生態閉環體系就非常清晰了。從深度學習模型的建立,到大數據的引入,再到大計算進一步處理,最終落地到具體的應用產品,之後再吸納新的用戶數據繼續訓練深度學習模型,如此反覆,形成一個完整的閉環生態。“人工智能技術研發非常重要的是閉環,我們只有把這個東西用在產品上,才能把這個閉環建起來。百度擁有上百條產品線,很多都跟人工智能有非常好的對接,我們在這個平臺上做研發,很快就實現應用。”林元慶博士在採訪中提到。

雖然建立了完整的閉環生態體系,但是百度並沒有將人工智能變成封閉體系,而是要打造一個開放的平臺。去年9月,百度宣佈將2013年自主研發的深度學習平臺Paddle Paddle正式開源,百度成為Google、Facebook、IBM之後又一家將人工智能技術開源的公司。今年4月19日,百度正式開放自動駕駛平臺並取名“阿波羅(Apollo)”計劃,將向合作伙伴提供一個開放、完整、安全的軟件平臺,幫助他們結合車輛和硬件系統,快速搭建一套屬於自己的完整的自動駕駛系統。

林元慶博士在採訪中透露,除了AI技術開源,百度還將開放計算平臺和數據平臺。人工智能對機器能力的要求非常高,搭建機房、購買昂貴的GPU和適配高電流輸出的電源設備、配備降低能耗的水冷裝置、維護監管的人力成本…要搭建一個人工智能計算平臺需要投入相當大的人力物力成本。未來,百度將會直接開放學習計算平臺,對於想要深度學習的單位和個人,一個百度賬號就可以直接使用百度的計算平臺。未來,百度還會將部分大數據直接預裝在計算平臺,用戶不再需要耗費幾個月的時間單獨上傳大量數據。

3月2日,百度聯合清華北大以及研究機構組建的深度學習技術及應用國家工程實驗室在北京掛牌成立,百度大腦正式進入人工智能“國家隊”。“百度大腦”能否進化為“中國大腦”還是未知數,不過林元慶博士表示,百度將和國內領先的科研單位一起,定義國家和行業最前沿的研究方向,百度將提供資源、數據和平臺讓全球的科學家一起研究和突破,推動行業的發展。

50個月,百度人工智能走了一條與眾不同的路

2017年,百度從“移動先行”繼續向“AI先行”的戰略推進,人工智能已經成為百度乃至整個互聯網的“下一幕”。但是,曾經在08年奧運會就提出的“刷臉進場館”技術直到十年後的今天都還沒有真正大規模普及,人工智能要走的路還很長。不過在互聯網的“下半場”裡,曾經的搜索引擎百度,已經越過了人工智能的起跑線。

相關推薦

推薦中...