"
"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

揭祕阿里人工智能這五年:天才的野心與自證

漆遠,現達摩院金融智能實驗室 負責人

加入阿里後,漆遠接到的首個任務是打造一套大規模機器學習平臺,落地到淘寶的廣告平臺阿里媽媽。他清楚地記得,當時手裡攥著兩千萬特徵,14 天的數據。由於數據量太少,他計劃積累到半年數據後再啟動。

同時,他還提交了一份申請數千臺服務器的計劃。這並不是一筆小數目,直到現在一塊英偉達的計算卡仍然要價 2000 美金,計劃討論後就被否決了。

等了半年,服務器仍沒有撥下來,巧婦也難為無米之炊。「當時沒有 CPU 集群,整個集團都沒有」,漆遠說道,「同事們認為,『你們這幫教授老師過來,基本不懂業務,也不懂技術』」。

秀才遇到兵,有理說不清。漆遠的團隊陷入了不能「自證」的悖論裡:沒有 CPU 集群,如何證明自己的算法和技術高效?不能證明自己的算法和技術高效,如何爭取到 CPU 集群?

漆遠曾試圖據理力爭,僵持狀態幾近半年,「團隊一度走在解散的邊緣」。

金榕是 iDST 的另一位創始人,美國密歇根州立大學終身教授,曾獲得過美國國家科學基金會獎(漆遠也獲得過該獎)——有超過 200 位諾貝爾獎得主都獲得過這個獎金的資助。

"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

揭祕阿里人工智能這五年:天才的野心與自證

漆遠,現達摩院金融智能實驗室 負責人

加入阿里後,漆遠接到的首個任務是打造一套大規模機器學習平臺,落地到淘寶的廣告平臺阿里媽媽。他清楚地記得,當時手裡攥著兩千萬特徵,14 天的數據。由於數據量太少,他計劃積累到半年數據後再啟動。

同時,他還提交了一份申請數千臺服務器的計劃。這並不是一筆小數目,直到現在一塊英偉達的計算卡仍然要價 2000 美金,計劃討論後就被否決了。

等了半年,服務器仍沒有撥下來,巧婦也難為無米之炊。「當時沒有 CPU 集群,整個集團都沒有」,漆遠說道,「同事們認為,『你們這幫教授老師過來,基本不懂業務,也不懂技術』」。

秀才遇到兵,有理說不清。漆遠的團隊陷入了不能「自證」的悖論裡:沒有 CPU 集群,如何證明自己的算法和技術高效?不能證明自己的算法和技術高效,如何爭取到 CPU 集群?

漆遠曾試圖據理力爭,僵持狀態幾近半年,「團隊一度走在解散的邊緣」。

金榕是 iDST 的另一位創始人,美國密歇根州立大學終身教授,曾獲得過美國國家科學基金會獎(漆遠也獲得過該獎)——有超過 200 位諾貝爾獎得主都獲得過這個獎金的資助。

揭祕阿里人工智能這五年:天才的野心與自證

金榕,現達摩院機器智能研究領域 負責人

金榕帶領團隊為「聚划算」提供流量分發的技術優化,團隊很自然地把低價商品排列在搜索和推薦結果的前列以提升成交量,卻忽視了對業務本質的理解——低價雖可刺激購買,卻讓目標用戶群從二三城市轉移到三四線城市。

「雖然 GMV 上去了,但產品的價值都變了」,金榕說道。

業務為技術開路,科學家們卻在無意中篡改了產品的內核,「短板暴露得非常明顯」,金榕談道。當時團隊多為研究背景,精通基礎理論,卻缺少業務理解和工程實踐經驗,所以看不到技術到產品中間的巨大鴻溝。

「你們要想在阿里發揮出真正的價值,就必須克服這些困難」,當時的阿里 COO 張勇找到金榕和幾個骨幹說道。

既然不夠熟悉業務,那就去到第一現場吧!

於是,iDST 的早期科學家們兵分多路,以電商和金融兩大核心業務為首,深入到產品和工程裡。金榕帶著團隊進入到淘寶和天貓的搜索事業部,漆遠和幾位同事去了螞蟻金服,做語音的團隊則留在了阿里雲。後來這被稱為阿里科學家們的「上山下鄉」運動。

技術的覺醒並不止於高層,更早些,一股從下至上的創新力量就竄上了頭,內部創新的文化開始流行——「只要你的老大不反對,就是對你最大的支持」。

2013 年的十一國慶,李昊印象尤其深刻。他沒有旅遊計劃,也不用回老家走街串巷,而是一人悶頭在辦公室裡搗鼓。一連七天,他都在工位上敲打著鍵盤,像是著了魔。

終於,趕在假期結束前,他長舒一口氣——Demo 跑通了,由一塊 GPU 搭上一臺主機,純手寫的用於圖像搜索的深度學習算法。再簡陋不過的裝置,但結果令人欣慰——比傳統算法的準確度有了明顯提升。

正值第三次人工智能浪潮起勢,ImageNet 大賽進入到第三屆,深度學習教父 Geoff Hinton 和他學生設計的 AlexNet 在賽事中大放異彩,基於深度神經網絡的思路一舉解決了圖像分類的棘手難題,至此開啟神經網絡百家爭鳴的盛況,更深、更寬的網絡層出不窮。

李昊從外文網站上讀到這些消息時備受鼓舞,他博士畢業於中科院光電技術研究所,來阿里不到一年,滿腔學以致用的迫切。

"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

揭祕阿里人工智能這五年:天才的野心與自證

漆遠,現達摩院金融智能實驗室 負責人

加入阿里後,漆遠接到的首個任務是打造一套大規模機器學習平臺,落地到淘寶的廣告平臺阿里媽媽。他清楚地記得,當時手裡攥著兩千萬特徵,14 天的數據。由於數據量太少,他計劃積累到半年數據後再啟動。

同時,他還提交了一份申請數千臺服務器的計劃。這並不是一筆小數目,直到現在一塊英偉達的計算卡仍然要價 2000 美金,計劃討論後就被否決了。

等了半年,服務器仍沒有撥下來,巧婦也難為無米之炊。「當時沒有 CPU 集群,整個集團都沒有」,漆遠說道,「同事們認為,『你們這幫教授老師過來,基本不懂業務,也不懂技術』」。

秀才遇到兵,有理說不清。漆遠的團隊陷入了不能「自證」的悖論裡:沒有 CPU 集群,如何證明自己的算法和技術高效?不能證明自己的算法和技術高效,如何爭取到 CPU 集群?

漆遠曾試圖據理力爭,僵持狀態幾近半年,「團隊一度走在解散的邊緣」。

金榕是 iDST 的另一位創始人,美國密歇根州立大學終身教授,曾獲得過美國國家科學基金會獎(漆遠也獲得過該獎)——有超過 200 位諾貝爾獎得主都獲得過這個獎金的資助。

揭祕阿里人工智能這五年:天才的野心與自證

金榕,現達摩院機器智能研究領域 負責人

金榕帶領團隊為「聚划算」提供流量分發的技術優化,團隊很自然地把低價商品排列在搜索和推薦結果的前列以提升成交量,卻忽視了對業務本質的理解——低價雖可刺激購買,卻讓目標用戶群從二三城市轉移到三四線城市。

「雖然 GMV 上去了,但產品的價值都變了」,金榕說道。

業務為技術開路,科學家們卻在無意中篡改了產品的內核,「短板暴露得非常明顯」,金榕談道。當時團隊多為研究背景,精通基礎理論,卻缺少業務理解和工程實踐經驗,所以看不到技術到產品中間的巨大鴻溝。

「你們要想在阿里發揮出真正的價值,就必須克服這些困難」,當時的阿里 COO 張勇找到金榕和幾個骨幹說道。

既然不夠熟悉業務,那就去到第一現場吧!

於是,iDST 的早期科學家們兵分多路,以電商和金融兩大核心業務為首,深入到產品和工程裡。金榕帶著團隊進入到淘寶和天貓的搜索事業部,漆遠和幾位同事去了螞蟻金服,做語音的團隊則留在了阿里雲。後來這被稱為阿里科學家們的「上山下鄉」運動。

技術的覺醒並不止於高層,更早些,一股從下至上的創新力量就竄上了頭,內部創新的文化開始流行——「只要你的老大不反對,就是對你最大的支持」。

2013 年的十一國慶,李昊印象尤其深刻。他沒有旅遊計劃,也不用回老家走街串巷,而是一人悶頭在辦公室裡搗鼓。一連七天,他都在工位上敲打著鍵盤,像是著了魔。

終於,趕在假期結束前,他長舒一口氣——Demo 跑通了,由一塊 GPU 搭上一臺主機,純手寫的用於圖像搜索的深度學習算法。再簡陋不過的裝置,但結果令人欣慰——比傳統算法的準確度有了明顯提升。

正值第三次人工智能浪潮起勢,ImageNet 大賽進入到第三屆,深度學習教父 Geoff Hinton 和他學生設計的 AlexNet 在賽事中大放異彩,基於深度神經網絡的思路一舉解決了圖像分類的棘手難題,至此開啟神經網絡百家爭鳴的盛況,更深、更寬的網絡層出不窮。

李昊從外文網站上讀到這些消息時備受鼓舞,他博士畢業於中科院光電技術研究所,來阿里不到一年,滿腔學以致用的迫切。

揭祕阿里人工智能這五年:天才的野心與自證

李昊,阿里巴巴資深算法專家

早在 2010 年,谷歌豪擲 1 億美金收購圖像購物搜索網站 Like.COM,掀起全球圖像搜索的風口。文字搜索場景有限,圖片描述更為加精確,微軟、亞馬遜、百度紛紛出手,阿里也順勢投資了一家圖蒐購物網站(現名為「淘淘搜」),通過識別圖片上的實體物品來索引網絡上對應的店鋪鏈接。

遺憾的是,隨著移動互聯網時代的到來,圖搜風口很快熄火,手機實拍圖的普及,讓搜索結果越來越不可控,圖搜應用體驗大幅受挫,不少創業公司瀕臨倒閉。

「實拍圖的比對相比 PC 的原圖難得不是一星半點,已經不是傳統圖搜技術能應付過來的」,李昊說道。

既然傳統圖搜技術已經無以為繼,那在視覺領域技驚四座的深度神經網絡能否奏效?為此,李昊花了整個國慶假期來驗證這個想法。

「他很興奮,一直給這個看,給那個看,非常大力地推廣」,李昊回憶起將Demo交給主管時的場景。就這樣,團隊爭取到一次向時任淘寶 CEO 展示的機會,這次是直接在手機端演示——手機拍照,實拍圖和庫裡已有圖片做比對檢索,找到和相似的照片顯示——相比傳統算法提升了一倍。

很快,「圖像搜索」項目在 2014 年正式啟動,目標是落地到手淘(手機淘寶應用)平臺。

剛來阿里三個月的潘攀被任命為負責人,兼顧算法、工程、產品的統籌,團隊力量充沛。潘攀畢業於美國伊利諾伊大學芝加哥分校博士,此前在美國三菱波士頓研究院、北京富士通研發中心從事視覺領域的研發工作。

"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

揭祕阿里人工智能這五年:天才的野心與自證

漆遠,現達摩院金融智能實驗室 負責人

加入阿里後,漆遠接到的首個任務是打造一套大規模機器學習平臺,落地到淘寶的廣告平臺阿里媽媽。他清楚地記得,當時手裡攥著兩千萬特徵,14 天的數據。由於數據量太少,他計劃積累到半年數據後再啟動。

同時,他還提交了一份申請數千臺服務器的計劃。這並不是一筆小數目,直到現在一塊英偉達的計算卡仍然要價 2000 美金,計劃討論後就被否決了。

等了半年,服務器仍沒有撥下來,巧婦也難為無米之炊。「當時沒有 CPU 集群,整個集團都沒有」,漆遠說道,「同事們認為,『你們這幫教授老師過來,基本不懂業務,也不懂技術』」。

秀才遇到兵,有理說不清。漆遠的團隊陷入了不能「自證」的悖論裡:沒有 CPU 集群,如何證明自己的算法和技術高效?不能證明自己的算法和技術高效,如何爭取到 CPU 集群?

漆遠曾試圖據理力爭,僵持狀態幾近半年,「團隊一度走在解散的邊緣」。

金榕是 iDST 的另一位創始人,美國密歇根州立大學終身教授,曾獲得過美國國家科學基金會獎(漆遠也獲得過該獎)——有超過 200 位諾貝爾獎得主都獲得過這個獎金的資助。

揭祕阿里人工智能這五年:天才的野心與自證

金榕,現達摩院機器智能研究領域 負責人

金榕帶領團隊為「聚划算」提供流量分發的技術優化,團隊很自然地把低價商品排列在搜索和推薦結果的前列以提升成交量,卻忽視了對業務本質的理解——低價雖可刺激購買,卻讓目標用戶群從二三城市轉移到三四線城市。

「雖然 GMV 上去了,但產品的價值都變了」,金榕說道。

業務為技術開路,科學家們卻在無意中篡改了產品的內核,「短板暴露得非常明顯」,金榕談道。當時團隊多為研究背景,精通基礎理論,卻缺少業務理解和工程實踐經驗,所以看不到技術到產品中間的巨大鴻溝。

「你們要想在阿里發揮出真正的價值,就必須克服這些困難」,當時的阿里 COO 張勇找到金榕和幾個骨幹說道。

既然不夠熟悉業務,那就去到第一現場吧!

於是,iDST 的早期科學家們兵分多路,以電商和金融兩大核心業務為首,深入到產品和工程裡。金榕帶著團隊進入到淘寶和天貓的搜索事業部,漆遠和幾位同事去了螞蟻金服,做語音的團隊則留在了阿里雲。後來這被稱為阿里科學家們的「上山下鄉」運動。

技術的覺醒並不止於高層,更早些,一股從下至上的創新力量就竄上了頭,內部創新的文化開始流行——「只要你的老大不反對,就是對你最大的支持」。

2013 年的十一國慶,李昊印象尤其深刻。他沒有旅遊計劃,也不用回老家走街串巷,而是一人悶頭在辦公室裡搗鼓。一連七天,他都在工位上敲打著鍵盤,像是著了魔。

終於,趕在假期結束前,他長舒一口氣——Demo 跑通了,由一塊 GPU 搭上一臺主機,純手寫的用於圖像搜索的深度學習算法。再簡陋不過的裝置,但結果令人欣慰——比傳統算法的準確度有了明顯提升。

正值第三次人工智能浪潮起勢,ImageNet 大賽進入到第三屆,深度學習教父 Geoff Hinton 和他學生設計的 AlexNet 在賽事中大放異彩,基於深度神經網絡的思路一舉解決了圖像分類的棘手難題,至此開啟神經網絡百家爭鳴的盛況,更深、更寬的網絡層出不窮。

李昊從外文網站上讀到這些消息時備受鼓舞,他博士畢業於中科院光電技術研究所,來阿里不到一年,滿腔學以致用的迫切。

揭祕阿里人工智能這五年:天才的野心與自證

李昊,阿里巴巴資深算法專家

早在 2010 年,谷歌豪擲 1 億美金收購圖像購物搜索網站 Like.COM,掀起全球圖像搜索的風口。文字搜索場景有限,圖片描述更為加精確,微軟、亞馬遜、百度紛紛出手,阿里也順勢投資了一家圖蒐購物網站(現名為「淘淘搜」),通過識別圖片上的實體物品來索引網絡上對應的店鋪鏈接。

遺憾的是,隨著移動互聯網時代的到來,圖搜風口很快熄火,手機實拍圖的普及,讓搜索結果越來越不可控,圖搜應用體驗大幅受挫,不少創業公司瀕臨倒閉。

「實拍圖的比對相比 PC 的原圖難得不是一星半點,已經不是傳統圖搜技術能應付過來的」,李昊說道。

既然傳統圖搜技術已經無以為繼,那在視覺領域技驚四座的深度神經網絡能否奏效?為此,李昊花了整個國慶假期來驗證這個想法。

「他很興奮,一直給這個看,給那個看,非常大力地推廣」,李昊回憶起將Demo交給主管時的場景。就這樣,團隊爭取到一次向時任淘寶 CEO 展示的機會,這次是直接在手機端演示——手機拍照,實拍圖和庫裡已有圖片做比對檢索,找到和相似的照片顯示——相比傳統算法提升了一倍。

很快,「圖像搜索」項目在 2014 年正式啟動,目標是落地到手淘(手機淘寶應用)平臺。

剛來阿里三個月的潘攀被任命為負責人,兼顧算法、工程、產品的統籌,團隊力量充沛。潘攀畢業於美國伊利諾伊大學芝加哥分校博士,此前在美國三菱波士頓研究院、北京富士通研發中心從事視覺領域的研發工作。

揭祕阿里人工智能這五年:天才的野心與自證

潘攀,現達摩院視覺智能研究領域 資深算法專家

延續此前團隊推動的技術路徑,「圖搜」採用深度學習技術,隨之成為阿里歷史上最早採用深度學習技術並上線的 C 端應用產品。

和大多數互聯網公司戰略先行的思路不同,阿里在技術探索的早期並沒有大刀闊斧地批項目,而是從現有的核心業務盤子上找切口,剋制而謹慎地實驗性驗證,然後才推動落地。

「當組織裡的算法和研發比較少,更多是由業務和產品構成時,就決定了大家對於技術不確定性的理解會非常有限」,潘攀說道,「對於一家互聯網公司,做項目就一定要做出來,看得到結果」。

這是一個又艱難又幸運的過程,當行動早於認知,缺少資源、無人信任、無法施展等困境便接踵而來,這既是商業公司的盈利性質所決定的,也是新生事物萌芽期所必經的考驗。

但幸運的是,無論是自上而下的理想主義,還是自下而上的創新力量都得以保留,倖免於曇花一現的口號和想法。

火種尚存便可以燎原。

2. 坐在金山上啃饅頭

「坐在金山上啃饅頭」,這是漆遠加入 iDST 時聽馬雲說過的話。金山就是阿里巴巴擁有的豐富數據。但是即便坐擁金山啃饅頭,也難以一口吃成個大胖子,「如果數據的價值不能被挖掘出來,那不過就是普通的土壤」。

隨著深度學習算法與模型的普及應用,「調參」工作成為大部分算法工程師的日常,淘寶和天貓的搜索團隊一開始也不例外。

因為深度學習算法的不可解釋性,很多基於該技術的方案就像是一個「黑盒」,模型中的參數選擇和調整成了一件難捉摸的事,往往意味著繁瑣而毫無頭緒,沒有技術含量。

在漆遠看來,光是調參遠不能建立起技術體系,「雖然屬於工程層面的工作,但仍需要科學的思想指導——最好的工程指導就是科學,否則你就只能是一名調參工程師」。

與漆遠秉持同一觀點的還有金榕。「原來我們都是做些調參工作,直到金榕老師來了之後才把我們帶上正軌」,李昊談道,「他常反問我們,深度學習為什麼能奏效?你能從理論上解釋嗎?」

「圖搜」項目之後,李昊便來到了搜索技術部——阿里最為核心的算法部門之一。在這裡,李昊遇到了前來深入業務第一線的金榕。

李昊當時的主要工作是為深度學習模型進行壓縮與加速優化,一般做法是套用現有模型,但金榕通常會提供新的思路,「他給了我們一堆的公式,讓我們去試」,但這一試就是三個月,也沒出結果。

當李昊和同事懷著忐忑的心情找到金榕,他並沒有因此責備,反而給予鼓勵,「如果三個月就能做出來,那就是太簡單了,繼續去做吧!」直到第四個月算法總算跑通。這套算法將Embedding 技術結合深度學習引入到搜索業務中,明顯提升了淘寶主搜索的 GMV。

李昊回憶,當時金榕還做了一套非常長的理論證明,證明算法是可收斂的,並在內部分享,「他當時給予我們的理論指導,正是我們所稀缺的」,李昊對此十分感激。

來到螞蟻金服的漆遠則接到了智能客服的項目,通過智能交互機器人來解決支付寶的客服問題。這一次,他順利很多,獲得當時集團客戶服務部負責人戴珊的支持後(戴珊是阿里巴巴早期創始的十八羅漢之一),很快爭取到了資金和資源進行技術的驗證。

在阿里科技發展早期,以阿里合夥人為代表,形成了一股來自理想主義的推動力量。

2015 年的雙十一,首次採用深度學習技術的支付寶客服實現了 94% 語音自助,這意味著有 94% 打來的電話不再需要轉接到人工服務,次年,這個數字提升到 97%。去除掉人工智能團隊的人員工資和計算資源成本,智能客服項目為公司節省了一個多億。

所謂「知人善用,人盡其才」,技術工具同樣如此,唯有了解 AI,才能用好 AI。

要在一家互聯網公司裡樹立起對於新技術的認知和信仰並非易事,這為科學家們設置了一道又一道的障礙欄,甚至不可避免地造成了人員流失。

但回過頭來看,或許正是有了「上山下山」的共事經歷,才算是真正打通了「研發」和「業務」的對話體系,讓陽春白雪和下里巴人從此互融。

技術之後,便是產品工程化的進階挑戰。

哪怕有高層支持,也不意味著就此被保駕護航,伴隨而來的反而是更大的壓力。圖搜立項的第一年就設定了明確目標——日活過百萬,「打從立項之初就不再是實驗性的了」。

與初期的深度學習算法探索不同,後期的挑戰就像無底洞一樣填不滿。

「問題的關鍵在於,我們不是在做一個獨立的 APP,而是讓它落在手淘上」,潘攀說道,「而且還是阿里最為核心的業務平臺」。落地手淘,意味著圖搜需要調用手淘的底層接口,需要針對淘寶內部的鏈路架構做額外定製和調配,而淌通這些鏈路就是最大挑戰。

在視覺領域,大規模圖片的壓縮極其消耗算力,這為大規模的圖搜訪問埋下了隱患,一次意外報警讓潘攀記憶猶新。

一天,圖搜的服務器突然被拖垮,後臺出現報警。

經過緊急排查,團隊才發現,原來是淘系後臺針對圖像上傳的默認壓縮功能拖垮了服務器。默認壓縮主要針對低頻、小訪問量的媒體上傳需求,但並沒有考慮到圖搜的特殊情況——數據規模大,且需要實時識別,所以已經在前端預設壓縮功能。換句話說,淘系的圖片默認壓縮對於圖搜反而是一種負擔。

在發生警報之前,大家都忽略了這麼細微的接口。潘攀談道,「很多時候就是這樣,即使我們自己考慮到位了,但如果要連接到更大的系統上,還是會出問題」。

上線並不意味著挑戰結束,比如,還有深不可測的入口。潘攀清楚地記得,圖搜第一次上線的位置是手淘的一個四級菜單裡。「四級」,則意味著你首先要在首頁裡找到「發現」,然後點開「特色服務」,點擊「更多」,再……

作為阿里最為核心的業務戰場,手淘的態度顯而易見——「願意給技術機會,但也要求風險可控」。

機會需要爭取,更需要「自證」其價值。

從最初上線的數千日活,過百萬,過千萬,一直到突破 2000 萬,圖搜應用一路躍升為淘寶首頁導購類目的第一。但與此同時,外界的質疑聲不斷,「我印象特別深,每一年大家都在問,數據還能增長嗎?……你還在做呀?做啥呢?」潘攀說道。

不被理解似乎成為開拓者的宿命,漆遠回憶早期的探索時期,「當時對我最大的鍛鍊就是,不被理解是正常的」。

這或許可以稱之為某種樂觀主義,但毋庸置疑,對於技術的信仰正是面對困境和誤解時不可或缺的堅實力量。

經歷過焦灼而艱難的資源「抗爭」後,漆遠手中的分佈式機器學習平臺終於啟動,為了儘早讓平臺上線,團隊放棄年底休假,春節期間留守奮戰,骨幹密集開會頭腦風暴。「當時切身地感受到了團隊的戰鬥力,大家真的是非常相信,只要上線效果一定能好」,漆遠回憶。

雙十一期間,平臺首次實現淘寶、天貓個性化推薦的大規模應用。那一年的阿里巴巴集團算法大獎上,漆遠帶領 80 人的團隊包攬了 16 項獎中的 6 項。現在,漆遠作為達摩院金融智能方向的負責人,帶領團隊構建面向金融經濟場景的智能分析與決策技術。

另一邊,在經歷了搜索類目擴增、數據優化、算法迭代等多方面的升級後,「圖搜」項目完成三次入口躍遷,終於在 2015 年雙十一期間進入首頁。讓潘攀頗為自豪的是,圖搜的數據一直依靠自然增長,幾乎沒有調用過手淘的商業推廣資源。

入口升級的本質是一個不斷「自證」的過程,由技術和技術背後的推動者們在一次又一次的挑戰中完成,繼而固化下來成為阿里技術產品的迭代傳統。

不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

高速增長的背後是兩年一次的系統大改,「阿里其實非常講究創新,我們一般都不炒冷飯」,潘攀說道,他將圖搜系統的發展分為三個時期,「每一次升級不僅是算法進步,而是整體思路的提升」。

「數據、系統、算法三個互為一體。對數據認知和處理方法的不同視角,催生了與之匹配的算法和工程系統,所以升級是整個系統層面的」。

項目早期,數據量少,還需要人工標註,所以研究為之匹配的小模型的系統和算法;隨後訓練數據解放,團隊嘗試通過用戶行為的三類數據(查詢數據、點擊數據、未點擊數據)分析出數據與排序間的邏輯關係,三元組的 Deep Ranking 框架生成,與之對應的訓練框架、系統升級迭代;去年,圖搜開始接入超大規模並行處理平臺,釋放數十億級數據的訓練能力。

與百度識圖、微信掃一掃、京東拍照購等市面上的其他圖搜應用不同,阿里更強調「通用化」能力,比如不僅能支持手淘所有的實體商品檢索,還包括二維碼、植物、垃圾等非商品的識別與分類。這些功能統統集成在圖搜一個窗口裡,不用再二次跳轉,平均日活達到 2000 萬以上。

在研究員的成長道路上,經歷一次完整的技術工程化落地的意義重大,它不僅錘鍊了實戰能力,更為其提供了深入瞭解業務所想、業務所需的窗口。

「這段經歷讓我們明白了應該創造和推動什麼樣的技術,知道哪些技術更有可能落地成為產品,以及如何讓一個產品能夠有效地支撐業務」,金榕談道。

可以說,從研發到業務的實戰積累正是阿里打造AI 技術落地體系的基石。

如今,這套思想貫徹到阿里大大小小的技術思路中。比如,在語音技術團隊今年推出的語音合成技術 KAN-TTS(Knowledge-Aware Neural TTS)中,團隊就事先考慮到了不同環境下的模型部署環境,並進行框架設計和效率優化,綜合各項需求的關鍵算法改進多達20餘項,最終實現了無論是在雲端還是終端,甚至是 CPU 存儲有限情況下的最快速度部署。

一項技術能否在設計之初就考慮到項目部署階段遇到的各種實際問題,正是技術落地體系成熟的重要標誌。

3. 中國研究院沒有Benchmark

「它是阿里巴巴國際化業務的技術生命線,如果沒有這些能力,阿里巴巴很難稱之為一家國際化公司」,這段底氣十足的話出自司羅。

他是阿里達摩院語言技術實驗室負責人,帶領百餘人的隊伍進行自然語言理解、機器翻譯、認知智能等底層技術的開發,這些技術被譽為人工智能皇冠上的明珠。

"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

揭祕阿里人工智能這五年:天才的野心與自證

漆遠,現達摩院金融智能實驗室 負責人

加入阿里後,漆遠接到的首個任務是打造一套大規模機器學習平臺,落地到淘寶的廣告平臺阿里媽媽。他清楚地記得,當時手裡攥著兩千萬特徵,14 天的數據。由於數據量太少,他計劃積累到半年數據後再啟動。

同時,他還提交了一份申請數千臺服務器的計劃。這並不是一筆小數目,直到現在一塊英偉達的計算卡仍然要價 2000 美金,計劃討論後就被否決了。

等了半年,服務器仍沒有撥下來,巧婦也難為無米之炊。「當時沒有 CPU 集群,整個集團都沒有」,漆遠說道,「同事們認為,『你們這幫教授老師過來,基本不懂業務,也不懂技術』」。

秀才遇到兵,有理說不清。漆遠的團隊陷入了不能「自證」的悖論裡:沒有 CPU 集群,如何證明自己的算法和技術高效?不能證明自己的算法和技術高效,如何爭取到 CPU 集群?

漆遠曾試圖據理力爭,僵持狀態幾近半年,「團隊一度走在解散的邊緣」。

金榕是 iDST 的另一位創始人,美國密歇根州立大學終身教授,曾獲得過美國國家科學基金會獎(漆遠也獲得過該獎)——有超過 200 位諾貝爾獎得主都獲得過這個獎金的資助。

揭祕阿里人工智能這五年:天才的野心與自證

金榕,現達摩院機器智能研究領域 負責人

金榕帶領團隊為「聚划算」提供流量分發的技術優化,團隊很自然地把低價商品排列在搜索和推薦結果的前列以提升成交量,卻忽視了對業務本質的理解——低價雖可刺激購買,卻讓目標用戶群從二三城市轉移到三四線城市。

「雖然 GMV 上去了,但產品的價值都變了」,金榕說道。

業務為技術開路,科學家們卻在無意中篡改了產品的內核,「短板暴露得非常明顯」,金榕談道。當時團隊多為研究背景,精通基礎理論,卻缺少業務理解和工程實踐經驗,所以看不到技術到產品中間的巨大鴻溝。

「你們要想在阿里發揮出真正的價值,就必須克服這些困難」,當時的阿里 COO 張勇找到金榕和幾個骨幹說道。

既然不夠熟悉業務,那就去到第一現場吧!

於是,iDST 的早期科學家們兵分多路,以電商和金融兩大核心業務為首,深入到產品和工程裡。金榕帶著團隊進入到淘寶和天貓的搜索事業部,漆遠和幾位同事去了螞蟻金服,做語音的團隊則留在了阿里雲。後來這被稱為阿里科學家們的「上山下鄉」運動。

技術的覺醒並不止於高層,更早些,一股從下至上的創新力量就竄上了頭,內部創新的文化開始流行——「只要你的老大不反對,就是對你最大的支持」。

2013 年的十一國慶,李昊印象尤其深刻。他沒有旅遊計劃,也不用回老家走街串巷,而是一人悶頭在辦公室裡搗鼓。一連七天,他都在工位上敲打著鍵盤,像是著了魔。

終於,趕在假期結束前,他長舒一口氣——Demo 跑通了,由一塊 GPU 搭上一臺主機,純手寫的用於圖像搜索的深度學習算法。再簡陋不過的裝置,但結果令人欣慰——比傳統算法的準確度有了明顯提升。

正值第三次人工智能浪潮起勢,ImageNet 大賽進入到第三屆,深度學習教父 Geoff Hinton 和他學生設計的 AlexNet 在賽事中大放異彩,基於深度神經網絡的思路一舉解決了圖像分類的棘手難題,至此開啟神經網絡百家爭鳴的盛況,更深、更寬的網絡層出不窮。

李昊從外文網站上讀到這些消息時備受鼓舞,他博士畢業於中科院光電技術研究所,來阿里不到一年,滿腔學以致用的迫切。

揭祕阿里人工智能這五年:天才的野心與自證

李昊,阿里巴巴資深算法專家

早在 2010 年,谷歌豪擲 1 億美金收購圖像購物搜索網站 Like.COM,掀起全球圖像搜索的風口。文字搜索場景有限,圖片描述更為加精確,微軟、亞馬遜、百度紛紛出手,阿里也順勢投資了一家圖蒐購物網站(現名為「淘淘搜」),通過識別圖片上的實體物品來索引網絡上對應的店鋪鏈接。

遺憾的是,隨著移動互聯網時代的到來,圖搜風口很快熄火,手機實拍圖的普及,讓搜索結果越來越不可控,圖搜應用體驗大幅受挫,不少創業公司瀕臨倒閉。

「實拍圖的比對相比 PC 的原圖難得不是一星半點,已經不是傳統圖搜技術能應付過來的」,李昊說道。

既然傳統圖搜技術已經無以為繼,那在視覺領域技驚四座的深度神經網絡能否奏效?為此,李昊花了整個國慶假期來驗證這個想法。

「他很興奮,一直給這個看,給那個看,非常大力地推廣」,李昊回憶起將Demo交給主管時的場景。就這樣,團隊爭取到一次向時任淘寶 CEO 展示的機會,這次是直接在手機端演示——手機拍照,實拍圖和庫裡已有圖片做比對檢索,找到和相似的照片顯示——相比傳統算法提升了一倍。

很快,「圖像搜索」項目在 2014 年正式啟動,目標是落地到手淘(手機淘寶應用)平臺。

剛來阿里三個月的潘攀被任命為負責人,兼顧算法、工程、產品的統籌,團隊力量充沛。潘攀畢業於美國伊利諾伊大學芝加哥分校博士,此前在美國三菱波士頓研究院、北京富士通研發中心從事視覺領域的研發工作。

揭祕阿里人工智能這五年:天才的野心與自證

潘攀,現達摩院視覺智能研究領域 資深算法專家

延續此前團隊推動的技術路徑,「圖搜」採用深度學習技術,隨之成為阿里歷史上最早採用深度學習技術並上線的 C 端應用產品。

和大多數互聯網公司戰略先行的思路不同,阿里在技術探索的早期並沒有大刀闊斧地批項目,而是從現有的核心業務盤子上找切口,剋制而謹慎地實驗性驗證,然後才推動落地。

「當組織裡的算法和研發比較少,更多是由業務和產品構成時,就決定了大家對於技術不確定性的理解會非常有限」,潘攀說道,「對於一家互聯網公司,做項目就一定要做出來,看得到結果」。

這是一個又艱難又幸運的過程,當行動早於認知,缺少資源、無人信任、無法施展等困境便接踵而來,這既是商業公司的盈利性質所決定的,也是新生事物萌芽期所必經的考驗。

但幸運的是,無論是自上而下的理想主義,還是自下而上的創新力量都得以保留,倖免於曇花一現的口號和想法。

火種尚存便可以燎原。

2. 坐在金山上啃饅頭

「坐在金山上啃饅頭」,這是漆遠加入 iDST 時聽馬雲說過的話。金山就是阿里巴巴擁有的豐富數據。但是即便坐擁金山啃饅頭,也難以一口吃成個大胖子,「如果數據的價值不能被挖掘出來,那不過就是普通的土壤」。

隨著深度學習算法與模型的普及應用,「調參」工作成為大部分算法工程師的日常,淘寶和天貓的搜索團隊一開始也不例外。

因為深度學習算法的不可解釋性,很多基於該技術的方案就像是一個「黑盒」,模型中的參數選擇和調整成了一件難捉摸的事,往往意味著繁瑣而毫無頭緒,沒有技術含量。

在漆遠看來,光是調參遠不能建立起技術體系,「雖然屬於工程層面的工作,但仍需要科學的思想指導——最好的工程指導就是科學,否則你就只能是一名調參工程師」。

與漆遠秉持同一觀點的還有金榕。「原來我們都是做些調參工作,直到金榕老師來了之後才把我們帶上正軌」,李昊談道,「他常反問我們,深度學習為什麼能奏效?你能從理論上解釋嗎?」

「圖搜」項目之後,李昊便來到了搜索技術部——阿里最為核心的算法部門之一。在這裡,李昊遇到了前來深入業務第一線的金榕。

李昊當時的主要工作是為深度學習模型進行壓縮與加速優化,一般做法是套用現有模型,但金榕通常會提供新的思路,「他給了我們一堆的公式,讓我們去試」,但這一試就是三個月,也沒出結果。

當李昊和同事懷著忐忑的心情找到金榕,他並沒有因此責備,反而給予鼓勵,「如果三個月就能做出來,那就是太簡單了,繼續去做吧!」直到第四個月算法總算跑通。這套算法將Embedding 技術結合深度學習引入到搜索業務中,明顯提升了淘寶主搜索的 GMV。

李昊回憶,當時金榕還做了一套非常長的理論證明,證明算法是可收斂的,並在內部分享,「他當時給予我們的理論指導,正是我們所稀缺的」,李昊對此十分感激。

來到螞蟻金服的漆遠則接到了智能客服的項目,通過智能交互機器人來解決支付寶的客服問題。這一次,他順利很多,獲得當時集團客戶服務部負責人戴珊的支持後(戴珊是阿里巴巴早期創始的十八羅漢之一),很快爭取到了資金和資源進行技術的驗證。

在阿里科技發展早期,以阿里合夥人為代表,形成了一股來自理想主義的推動力量。

2015 年的雙十一,首次採用深度學習技術的支付寶客服實現了 94% 語音自助,這意味著有 94% 打來的電話不再需要轉接到人工服務,次年,這個數字提升到 97%。去除掉人工智能團隊的人員工資和計算資源成本,智能客服項目為公司節省了一個多億。

所謂「知人善用,人盡其才」,技術工具同樣如此,唯有了解 AI,才能用好 AI。

要在一家互聯網公司裡樹立起對於新技術的認知和信仰並非易事,這為科學家們設置了一道又一道的障礙欄,甚至不可避免地造成了人員流失。

但回過頭來看,或許正是有了「上山下山」的共事經歷,才算是真正打通了「研發」和「業務」的對話體系,讓陽春白雪和下里巴人從此互融。

技術之後,便是產品工程化的進階挑戰。

哪怕有高層支持,也不意味著就此被保駕護航,伴隨而來的反而是更大的壓力。圖搜立項的第一年就設定了明確目標——日活過百萬,「打從立項之初就不再是實驗性的了」。

與初期的深度學習算法探索不同,後期的挑戰就像無底洞一樣填不滿。

「問題的關鍵在於,我們不是在做一個獨立的 APP,而是讓它落在手淘上」,潘攀說道,「而且還是阿里最為核心的業務平臺」。落地手淘,意味著圖搜需要調用手淘的底層接口,需要針對淘寶內部的鏈路架構做額外定製和調配,而淌通這些鏈路就是最大挑戰。

在視覺領域,大規模圖片的壓縮極其消耗算力,這為大規模的圖搜訪問埋下了隱患,一次意外報警讓潘攀記憶猶新。

一天,圖搜的服務器突然被拖垮,後臺出現報警。

經過緊急排查,團隊才發現,原來是淘系後臺針對圖像上傳的默認壓縮功能拖垮了服務器。默認壓縮主要針對低頻、小訪問量的媒體上傳需求,但並沒有考慮到圖搜的特殊情況——數據規模大,且需要實時識別,所以已經在前端預設壓縮功能。換句話說,淘系的圖片默認壓縮對於圖搜反而是一種負擔。

在發生警報之前,大家都忽略了這麼細微的接口。潘攀談道,「很多時候就是這樣,即使我們自己考慮到位了,但如果要連接到更大的系統上,還是會出問題」。

上線並不意味著挑戰結束,比如,還有深不可測的入口。潘攀清楚地記得,圖搜第一次上線的位置是手淘的一個四級菜單裡。「四級」,則意味著你首先要在首頁裡找到「發現」,然後點開「特色服務」,點擊「更多」,再……

作為阿里最為核心的業務戰場,手淘的態度顯而易見——「願意給技術機會,但也要求風險可控」。

機會需要爭取,更需要「自證」其價值。

從最初上線的數千日活,過百萬,過千萬,一直到突破 2000 萬,圖搜應用一路躍升為淘寶首頁導購類目的第一。但與此同時,外界的質疑聲不斷,「我印象特別深,每一年大家都在問,數據還能增長嗎?……你還在做呀?做啥呢?」潘攀說道。

不被理解似乎成為開拓者的宿命,漆遠回憶早期的探索時期,「當時對我最大的鍛鍊就是,不被理解是正常的」。

這或許可以稱之為某種樂觀主義,但毋庸置疑,對於技術的信仰正是面對困境和誤解時不可或缺的堅實力量。

經歷過焦灼而艱難的資源「抗爭」後,漆遠手中的分佈式機器學習平臺終於啟動,為了儘早讓平臺上線,團隊放棄年底休假,春節期間留守奮戰,骨幹密集開會頭腦風暴。「當時切身地感受到了團隊的戰鬥力,大家真的是非常相信,只要上線效果一定能好」,漆遠回憶。

雙十一期間,平臺首次實現淘寶、天貓個性化推薦的大規模應用。那一年的阿里巴巴集團算法大獎上,漆遠帶領 80 人的團隊包攬了 16 項獎中的 6 項。現在,漆遠作為達摩院金融智能方向的負責人,帶領團隊構建面向金融經濟場景的智能分析與決策技術。

另一邊,在經歷了搜索類目擴增、數據優化、算法迭代等多方面的升級後,「圖搜」項目完成三次入口躍遷,終於在 2015 年雙十一期間進入首頁。讓潘攀頗為自豪的是,圖搜的數據一直依靠自然增長,幾乎沒有調用過手淘的商業推廣資源。

入口升級的本質是一個不斷「自證」的過程,由技術和技術背後的推動者們在一次又一次的挑戰中完成,繼而固化下來成為阿里技術產品的迭代傳統。

不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

高速增長的背後是兩年一次的系統大改,「阿里其實非常講究創新,我們一般都不炒冷飯」,潘攀說道,他將圖搜系統的發展分為三個時期,「每一次升級不僅是算法進步,而是整體思路的提升」。

「數據、系統、算法三個互為一體。對數據認知和處理方法的不同視角,催生了與之匹配的算法和工程系統,所以升級是整個系統層面的」。

項目早期,數據量少,還需要人工標註,所以研究為之匹配的小模型的系統和算法;隨後訓練數據解放,團隊嘗試通過用戶行為的三類數據(查詢數據、點擊數據、未點擊數據)分析出數據與排序間的邏輯關係,三元組的 Deep Ranking 框架生成,與之對應的訓練框架、系統升級迭代;去年,圖搜開始接入超大規模並行處理平臺,釋放數十億級數據的訓練能力。

與百度識圖、微信掃一掃、京東拍照購等市面上的其他圖搜應用不同,阿里更強調「通用化」能力,比如不僅能支持手淘所有的實體商品檢索,還包括二維碼、植物、垃圾等非商品的識別與分類。這些功能統統集成在圖搜一個窗口裡,不用再二次跳轉,平均日活達到 2000 萬以上。

在研究員的成長道路上,經歷一次完整的技術工程化落地的意義重大,它不僅錘鍊了實戰能力,更為其提供了深入瞭解業務所想、業務所需的窗口。

「這段經歷讓我們明白了應該創造和推動什麼樣的技術,知道哪些技術更有可能落地成為產品,以及如何讓一個產品能夠有效地支撐業務」,金榕談道。

可以說,從研發到業務的實戰積累正是阿里打造AI 技術落地體系的基石。

如今,這套思想貫徹到阿里大大小小的技術思路中。比如,在語音技術團隊今年推出的語音合成技術 KAN-TTS(Knowledge-Aware Neural TTS)中,團隊就事先考慮到了不同環境下的模型部署環境,並進行框架設計和效率優化,綜合各項需求的關鍵算法改進多達20餘項,最終實現了無論是在雲端還是終端,甚至是 CPU 存儲有限情況下的最快速度部署。

一項技術能否在設計之初就考慮到項目部署階段遇到的各種實際問題,正是技術落地體系成熟的重要標誌。

3. 中國研究院沒有Benchmark

「它是阿里巴巴國際化業務的技術生命線,如果沒有這些能力,阿里巴巴很難稱之為一家國際化公司」,這段底氣十足的話出自司羅。

他是阿里達摩院語言技術實驗室負責人,帶領百餘人的隊伍進行自然語言理解、機器翻譯、認知智能等底層技術的開發,這些技術被譽為人工智能皇冠上的明珠。

揭祕阿里人工智能這五年:天才的野心與自證

司羅,現達摩院語言技術實驗室 負責人

司羅專注於機器學習、NLP 等領域的研究,2012 年成為普渡大學計算機系終身教授後,一舉奠定了其在學術圈的地位。同金榕、漆遠一批,司羅在 2014 年加入 iDST,是阿里建立人工智能技術體系的早期成員。

相較於視覺、語音更貼近前端用戶的技術,語言則更偏向底層,以原子化能力的形式起作用,扮演著賦能和支撐的角色。正因為這個特點,它對於大型互聯網技術公司而言往往不可或缺,但技術團隊卻又是極其分散的。

既然如此,為何不集中力量打通?

於是,語言技術恰好成為了技術平臺化的最佳試驗場。

2016 年 10 月,對於司羅和 NLP 團隊而言是一個重要的時間節點。此前,他們忙於承接一個個「項目」,先後參與過「聚划算」、「AIios」「淘寶頭條」等項目。

在這之後,司羅領到任務——將 NLP 的「大中臺」建立起來,換句話說,阿里各業務線的 NLP 不再各自為營。

為了讓其他業務線接入平臺,司羅採取了「品牌效應」的打法。

是的,在公司內部,同樣需要建立品牌,尤其在打造規模化平臺的過程中。

「首先要有非常貼身的服務,然後讓重點的頭部用戶用起來,逐步地讓他們認識到 NLP 平臺和解決方案的好處,再通過種子用戶將我們的技術價值傳播出去」,司羅知無不言地分享了品牌效應的打造「套路」。

而正是因為技術平臺化的出現,讓這隻百餘人的隊伍能夠支持阿里系 600餘個業務方,每天調用量達到了兩萬億次。

這是 NLP 技術影響力從量變到質變的飛躍。

沿用同樣的思路,司羅帶領的另一條技術分支——機器翻譯技術也實現了規模化的業務支撐能力,為阿里全球化電商平臺上的買賣雙方提供 20 多種語言,48 種語言方向的機器翻譯服務,覆蓋歐洲、亞洲、美洲與中東地區的絕大多數國家。

阿里的圖搜應用在技術平臺化升級後,從最早的支持手淘平臺到目前落地到淘系的六個主流 APP,一舉成為全球最大的圖搜應用系統。「這是淘系業務的市場份額決定的」,潘攀說道。

從單個功能應用,到十個、百個、數百個的業務方支持,每天被億級用戶使用,技術平臺化的戰略得到了有效驗證與認可。尤其對於技術人員而言,通過平臺化的過程,單點技術的影響力不斷被泛化,技術的品牌效應不斷地被放大。

但對於當下的阿里而言,平臺化尚非終點,「上雲」更是一片廣闊的天地。

阿里內部的海量業務和長期實戰的檢驗,為技術與方案移植到阿里雲平臺提供了硬核實力。司羅表示,NLP 平臺和機器翻譯平臺已經先後在阿里雲上的人工智能板塊上線,供第三方的雲計算客戶使用。

從單純的技術算法,到集成為業務和應用中的產品,再到平臺化和大規模可複製化的雲計算商品,這是一條阿里人自己走出來的 AI 落地路。

是時候將這條路子固化下來了!

2017 年 10 月 11 日,是阿里人工智能技術體系開宗明義的日子。

"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

揭祕阿里人工智能這五年:天才的野心與自證

漆遠,現達摩院金融智能實驗室 負責人

加入阿里後,漆遠接到的首個任務是打造一套大規模機器學習平臺,落地到淘寶的廣告平臺阿里媽媽。他清楚地記得,當時手裡攥著兩千萬特徵,14 天的數據。由於數據量太少,他計劃積累到半年數據後再啟動。

同時,他還提交了一份申請數千臺服務器的計劃。這並不是一筆小數目,直到現在一塊英偉達的計算卡仍然要價 2000 美金,計劃討論後就被否決了。

等了半年,服務器仍沒有撥下來,巧婦也難為無米之炊。「當時沒有 CPU 集群,整個集團都沒有」,漆遠說道,「同事們認為,『你們這幫教授老師過來,基本不懂業務,也不懂技術』」。

秀才遇到兵,有理說不清。漆遠的團隊陷入了不能「自證」的悖論裡:沒有 CPU 集群,如何證明自己的算法和技術高效?不能證明自己的算法和技術高效,如何爭取到 CPU 集群?

漆遠曾試圖據理力爭,僵持狀態幾近半年,「團隊一度走在解散的邊緣」。

金榕是 iDST 的另一位創始人,美國密歇根州立大學終身教授,曾獲得過美國國家科學基金會獎(漆遠也獲得過該獎)——有超過 200 位諾貝爾獎得主都獲得過這個獎金的資助。

揭祕阿里人工智能這五年:天才的野心與自證

金榕,現達摩院機器智能研究領域 負責人

金榕帶領團隊為「聚划算」提供流量分發的技術優化,團隊很自然地把低價商品排列在搜索和推薦結果的前列以提升成交量,卻忽視了對業務本質的理解——低價雖可刺激購買,卻讓目標用戶群從二三城市轉移到三四線城市。

「雖然 GMV 上去了,但產品的價值都變了」,金榕說道。

業務為技術開路,科學家們卻在無意中篡改了產品的內核,「短板暴露得非常明顯」,金榕談道。當時團隊多為研究背景,精通基礎理論,卻缺少業務理解和工程實踐經驗,所以看不到技術到產品中間的巨大鴻溝。

「你們要想在阿里發揮出真正的價值,就必須克服這些困難」,當時的阿里 COO 張勇找到金榕和幾個骨幹說道。

既然不夠熟悉業務,那就去到第一現場吧!

於是,iDST 的早期科學家們兵分多路,以電商和金融兩大核心業務為首,深入到產品和工程裡。金榕帶著團隊進入到淘寶和天貓的搜索事業部,漆遠和幾位同事去了螞蟻金服,做語音的團隊則留在了阿里雲。後來這被稱為阿里科學家們的「上山下鄉」運動。

技術的覺醒並不止於高層,更早些,一股從下至上的創新力量就竄上了頭,內部創新的文化開始流行——「只要你的老大不反對,就是對你最大的支持」。

2013 年的十一國慶,李昊印象尤其深刻。他沒有旅遊計劃,也不用回老家走街串巷,而是一人悶頭在辦公室裡搗鼓。一連七天,他都在工位上敲打著鍵盤,像是著了魔。

終於,趕在假期結束前,他長舒一口氣——Demo 跑通了,由一塊 GPU 搭上一臺主機,純手寫的用於圖像搜索的深度學習算法。再簡陋不過的裝置,但結果令人欣慰——比傳統算法的準確度有了明顯提升。

正值第三次人工智能浪潮起勢,ImageNet 大賽進入到第三屆,深度學習教父 Geoff Hinton 和他學生設計的 AlexNet 在賽事中大放異彩,基於深度神經網絡的思路一舉解決了圖像分類的棘手難題,至此開啟神經網絡百家爭鳴的盛況,更深、更寬的網絡層出不窮。

李昊從外文網站上讀到這些消息時備受鼓舞,他博士畢業於中科院光電技術研究所,來阿里不到一年,滿腔學以致用的迫切。

揭祕阿里人工智能這五年:天才的野心與自證

李昊,阿里巴巴資深算法專家

早在 2010 年,谷歌豪擲 1 億美金收購圖像購物搜索網站 Like.COM,掀起全球圖像搜索的風口。文字搜索場景有限,圖片描述更為加精確,微軟、亞馬遜、百度紛紛出手,阿里也順勢投資了一家圖蒐購物網站(現名為「淘淘搜」),通過識別圖片上的實體物品來索引網絡上對應的店鋪鏈接。

遺憾的是,隨著移動互聯網時代的到來,圖搜風口很快熄火,手機實拍圖的普及,讓搜索結果越來越不可控,圖搜應用體驗大幅受挫,不少創業公司瀕臨倒閉。

「實拍圖的比對相比 PC 的原圖難得不是一星半點,已經不是傳統圖搜技術能應付過來的」,李昊說道。

既然傳統圖搜技術已經無以為繼,那在視覺領域技驚四座的深度神經網絡能否奏效?為此,李昊花了整個國慶假期來驗證這個想法。

「他很興奮,一直給這個看,給那個看,非常大力地推廣」,李昊回憶起將Demo交給主管時的場景。就這樣,團隊爭取到一次向時任淘寶 CEO 展示的機會,這次是直接在手機端演示——手機拍照,實拍圖和庫裡已有圖片做比對檢索,找到和相似的照片顯示——相比傳統算法提升了一倍。

很快,「圖像搜索」項目在 2014 年正式啟動,目標是落地到手淘(手機淘寶應用)平臺。

剛來阿里三個月的潘攀被任命為負責人,兼顧算法、工程、產品的統籌,團隊力量充沛。潘攀畢業於美國伊利諾伊大學芝加哥分校博士,此前在美國三菱波士頓研究院、北京富士通研發中心從事視覺領域的研發工作。

揭祕阿里人工智能這五年:天才的野心與自證

潘攀,現達摩院視覺智能研究領域 資深算法專家

延續此前團隊推動的技術路徑,「圖搜」採用深度學習技術,隨之成為阿里歷史上最早採用深度學習技術並上線的 C 端應用產品。

和大多數互聯網公司戰略先行的思路不同,阿里在技術探索的早期並沒有大刀闊斧地批項目,而是從現有的核心業務盤子上找切口,剋制而謹慎地實驗性驗證,然後才推動落地。

「當組織裡的算法和研發比較少,更多是由業務和產品構成時,就決定了大家對於技術不確定性的理解會非常有限」,潘攀說道,「對於一家互聯網公司,做項目就一定要做出來,看得到結果」。

這是一個又艱難又幸運的過程,當行動早於認知,缺少資源、無人信任、無法施展等困境便接踵而來,這既是商業公司的盈利性質所決定的,也是新生事物萌芽期所必經的考驗。

但幸運的是,無論是自上而下的理想主義,還是自下而上的創新力量都得以保留,倖免於曇花一現的口號和想法。

火種尚存便可以燎原。

2. 坐在金山上啃饅頭

「坐在金山上啃饅頭」,這是漆遠加入 iDST 時聽馬雲說過的話。金山就是阿里巴巴擁有的豐富數據。但是即便坐擁金山啃饅頭,也難以一口吃成個大胖子,「如果數據的價值不能被挖掘出來,那不過就是普通的土壤」。

隨著深度學習算法與模型的普及應用,「調參」工作成為大部分算法工程師的日常,淘寶和天貓的搜索團隊一開始也不例外。

因為深度學習算法的不可解釋性,很多基於該技術的方案就像是一個「黑盒」,模型中的參數選擇和調整成了一件難捉摸的事,往往意味著繁瑣而毫無頭緒,沒有技術含量。

在漆遠看來,光是調參遠不能建立起技術體系,「雖然屬於工程層面的工作,但仍需要科學的思想指導——最好的工程指導就是科學,否則你就只能是一名調參工程師」。

與漆遠秉持同一觀點的還有金榕。「原來我們都是做些調參工作,直到金榕老師來了之後才把我們帶上正軌」,李昊談道,「他常反問我們,深度學習為什麼能奏效?你能從理論上解釋嗎?」

「圖搜」項目之後,李昊便來到了搜索技術部——阿里最為核心的算法部門之一。在這裡,李昊遇到了前來深入業務第一線的金榕。

李昊當時的主要工作是為深度學習模型進行壓縮與加速優化,一般做法是套用現有模型,但金榕通常會提供新的思路,「他給了我們一堆的公式,讓我們去試」,但這一試就是三個月,也沒出結果。

當李昊和同事懷著忐忑的心情找到金榕,他並沒有因此責備,反而給予鼓勵,「如果三個月就能做出來,那就是太簡單了,繼續去做吧!」直到第四個月算法總算跑通。這套算法將Embedding 技術結合深度學習引入到搜索業務中,明顯提升了淘寶主搜索的 GMV。

李昊回憶,當時金榕還做了一套非常長的理論證明,證明算法是可收斂的,並在內部分享,「他當時給予我們的理論指導,正是我們所稀缺的」,李昊對此十分感激。

來到螞蟻金服的漆遠則接到了智能客服的項目,通過智能交互機器人來解決支付寶的客服問題。這一次,他順利很多,獲得當時集團客戶服務部負責人戴珊的支持後(戴珊是阿里巴巴早期創始的十八羅漢之一),很快爭取到了資金和資源進行技術的驗證。

在阿里科技發展早期,以阿里合夥人為代表,形成了一股來自理想主義的推動力量。

2015 年的雙十一,首次採用深度學習技術的支付寶客服實現了 94% 語音自助,這意味著有 94% 打來的電話不再需要轉接到人工服務,次年,這個數字提升到 97%。去除掉人工智能團隊的人員工資和計算資源成本,智能客服項目為公司節省了一個多億。

所謂「知人善用,人盡其才」,技術工具同樣如此,唯有了解 AI,才能用好 AI。

要在一家互聯網公司裡樹立起對於新技術的認知和信仰並非易事,這為科學家們設置了一道又一道的障礙欄,甚至不可避免地造成了人員流失。

但回過頭來看,或許正是有了「上山下山」的共事經歷,才算是真正打通了「研發」和「業務」的對話體系,讓陽春白雪和下里巴人從此互融。

技術之後,便是產品工程化的進階挑戰。

哪怕有高層支持,也不意味著就此被保駕護航,伴隨而來的反而是更大的壓力。圖搜立項的第一年就設定了明確目標——日活過百萬,「打從立項之初就不再是實驗性的了」。

與初期的深度學習算法探索不同,後期的挑戰就像無底洞一樣填不滿。

「問題的關鍵在於,我們不是在做一個獨立的 APP,而是讓它落在手淘上」,潘攀說道,「而且還是阿里最為核心的業務平臺」。落地手淘,意味著圖搜需要調用手淘的底層接口,需要針對淘寶內部的鏈路架構做額外定製和調配,而淌通這些鏈路就是最大挑戰。

在視覺領域,大規模圖片的壓縮極其消耗算力,這為大規模的圖搜訪問埋下了隱患,一次意外報警讓潘攀記憶猶新。

一天,圖搜的服務器突然被拖垮,後臺出現報警。

經過緊急排查,團隊才發現,原來是淘系後臺針對圖像上傳的默認壓縮功能拖垮了服務器。默認壓縮主要針對低頻、小訪問量的媒體上傳需求,但並沒有考慮到圖搜的特殊情況——數據規模大,且需要實時識別,所以已經在前端預設壓縮功能。換句話說,淘系的圖片默認壓縮對於圖搜反而是一種負擔。

在發生警報之前,大家都忽略了這麼細微的接口。潘攀談道,「很多時候就是這樣,即使我們自己考慮到位了,但如果要連接到更大的系統上,還是會出問題」。

上線並不意味著挑戰結束,比如,還有深不可測的入口。潘攀清楚地記得,圖搜第一次上線的位置是手淘的一個四級菜單裡。「四級」,則意味著你首先要在首頁裡找到「發現」,然後點開「特色服務」,點擊「更多」,再……

作為阿里最為核心的業務戰場,手淘的態度顯而易見——「願意給技術機會,但也要求風險可控」。

機會需要爭取,更需要「自證」其價值。

從最初上線的數千日活,過百萬,過千萬,一直到突破 2000 萬,圖搜應用一路躍升為淘寶首頁導購類目的第一。但與此同時,外界的質疑聲不斷,「我印象特別深,每一年大家都在問,數據還能增長嗎?……你還在做呀?做啥呢?」潘攀說道。

不被理解似乎成為開拓者的宿命,漆遠回憶早期的探索時期,「當時對我最大的鍛鍊就是,不被理解是正常的」。

這或許可以稱之為某種樂觀主義,但毋庸置疑,對於技術的信仰正是面對困境和誤解時不可或缺的堅實力量。

經歷過焦灼而艱難的資源「抗爭」後,漆遠手中的分佈式機器學習平臺終於啟動,為了儘早讓平臺上線,團隊放棄年底休假,春節期間留守奮戰,骨幹密集開會頭腦風暴。「當時切身地感受到了團隊的戰鬥力,大家真的是非常相信,只要上線效果一定能好」,漆遠回憶。

雙十一期間,平臺首次實現淘寶、天貓個性化推薦的大規模應用。那一年的阿里巴巴集團算法大獎上,漆遠帶領 80 人的團隊包攬了 16 項獎中的 6 項。現在,漆遠作為達摩院金融智能方向的負責人,帶領團隊構建面向金融經濟場景的智能分析與決策技術。

另一邊,在經歷了搜索類目擴增、數據優化、算法迭代等多方面的升級後,「圖搜」項目完成三次入口躍遷,終於在 2015 年雙十一期間進入首頁。讓潘攀頗為自豪的是,圖搜的數據一直依靠自然增長,幾乎沒有調用過手淘的商業推廣資源。

入口升級的本質是一個不斷「自證」的過程,由技術和技術背後的推動者們在一次又一次的挑戰中完成,繼而固化下來成為阿里技術產品的迭代傳統。

不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

高速增長的背後是兩年一次的系統大改,「阿里其實非常講究創新,我們一般都不炒冷飯」,潘攀說道,他將圖搜系統的發展分為三個時期,「每一次升級不僅是算法進步,而是整體思路的提升」。

「數據、系統、算法三個互為一體。對數據認知和處理方法的不同視角,催生了與之匹配的算法和工程系統,所以升級是整個系統層面的」。

項目早期,數據量少,還需要人工標註,所以研究為之匹配的小模型的系統和算法;隨後訓練數據解放,團隊嘗試通過用戶行為的三類數據(查詢數據、點擊數據、未點擊數據)分析出數據與排序間的邏輯關係,三元組的 Deep Ranking 框架生成,與之對應的訓練框架、系統升級迭代;去年,圖搜開始接入超大規模並行處理平臺,釋放數十億級數據的訓練能力。

與百度識圖、微信掃一掃、京東拍照購等市面上的其他圖搜應用不同,阿里更強調「通用化」能力,比如不僅能支持手淘所有的實體商品檢索,還包括二維碼、植物、垃圾等非商品的識別與分類。這些功能統統集成在圖搜一個窗口裡,不用再二次跳轉,平均日活達到 2000 萬以上。

在研究員的成長道路上,經歷一次完整的技術工程化落地的意義重大,它不僅錘鍊了實戰能力,更為其提供了深入瞭解業務所想、業務所需的窗口。

「這段經歷讓我們明白了應該創造和推動什麼樣的技術,知道哪些技術更有可能落地成為產品,以及如何讓一個產品能夠有效地支撐業務」,金榕談道。

可以說,從研發到業務的實戰積累正是阿里打造AI 技術落地體系的基石。

如今,這套思想貫徹到阿里大大小小的技術思路中。比如,在語音技術團隊今年推出的語音合成技術 KAN-TTS(Knowledge-Aware Neural TTS)中,團隊就事先考慮到了不同環境下的模型部署環境,並進行框架設計和效率優化,綜合各項需求的關鍵算法改進多達20餘項,最終實現了無論是在雲端還是終端,甚至是 CPU 存儲有限情況下的最快速度部署。

一項技術能否在設計之初就考慮到項目部署階段遇到的各種實際問題,正是技術落地體系成熟的重要標誌。

3. 中國研究院沒有Benchmark

「它是阿里巴巴國際化業務的技術生命線,如果沒有這些能力,阿里巴巴很難稱之為一家國際化公司」,這段底氣十足的話出自司羅。

他是阿里達摩院語言技術實驗室負責人,帶領百餘人的隊伍進行自然語言理解、機器翻譯、認知智能等底層技術的開發,這些技術被譽為人工智能皇冠上的明珠。

揭祕阿里人工智能這五年:天才的野心與自證

司羅,現達摩院語言技術實驗室 負責人

司羅專注於機器學習、NLP 等領域的研究,2012 年成為普渡大學計算機系終身教授後,一舉奠定了其在學術圈的地位。同金榕、漆遠一批,司羅在 2014 年加入 iDST,是阿里建立人工智能技術體系的早期成員。

相較於視覺、語音更貼近前端用戶的技術,語言則更偏向底層,以原子化能力的形式起作用,扮演著賦能和支撐的角色。正因為這個特點,它對於大型互聯網技術公司而言往往不可或缺,但技術團隊卻又是極其分散的。

既然如此,為何不集中力量打通?

於是,語言技術恰好成為了技術平臺化的最佳試驗場。

2016 年 10 月,對於司羅和 NLP 團隊而言是一個重要的時間節點。此前,他們忙於承接一個個「項目」,先後參與過「聚划算」、「AIios」「淘寶頭條」等項目。

在這之後,司羅領到任務——將 NLP 的「大中臺」建立起來,換句話說,阿里各業務線的 NLP 不再各自為營。

為了讓其他業務線接入平臺,司羅採取了「品牌效應」的打法。

是的,在公司內部,同樣需要建立品牌,尤其在打造規模化平臺的過程中。

「首先要有非常貼身的服務,然後讓重點的頭部用戶用起來,逐步地讓他們認識到 NLP 平臺和解決方案的好處,再通過種子用戶將我們的技術價值傳播出去」,司羅知無不言地分享了品牌效應的打造「套路」。

而正是因為技術平臺化的出現,讓這隻百餘人的隊伍能夠支持阿里系 600餘個業務方,每天調用量達到了兩萬億次。

這是 NLP 技術影響力從量變到質變的飛躍。

沿用同樣的思路,司羅帶領的另一條技術分支——機器翻譯技術也實現了規模化的業務支撐能力,為阿里全球化電商平臺上的買賣雙方提供 20 多種語言,48 種語言方向的機器翻譯服務,覆蓋歐洲、亞洲、美洲與中東地區的絕大多數國家。

阿里的圖搜應用在技術平臺化升級後,從最早的支持手淘平臺到目前落地到淘系的六個主流 APP,一舉成為全球最大的圖搜應用系統。「這是淘系業務的市場份額決定的」,潘攀說道。

從單個功能應用,到十個、百個、數百個的業務方支持,每天被億級用戶使用,技術平臺化的戰略得到了有效驗證與認可。尤其對於技術人員而言,通過平臺化的過程,單點技術的影響力不斷被泛化,技術的品牌效應不斷地被放大。

但對於當下的阿里而言,平臺化尚非終點,「上雲」更是一片廣闊的天地。

阿里內部的海量業務和長期實戰的檢驗,為技術與方案移植到阿里雲平臺提供了硬核實力。司羅表示,NLP 平臺和機器翻譯平臺已經先後在阿里雲上的人工智能板塊上線,供第三方的雲計算客戶使用。

從單純的技術算法,到集成為業務和應用中的產品,再到平臺化和大規模可複製化的雲計算商品,這是一條阿里人自己走出來的 AI 落地路。

是時候將這條路子固化下來了!

2017 年 10 月 11 日,是阿里人工智能技術體系開宗明義的日子。

揭祕阿里人工智能這五年:天才的野心與自證

阿里巴巴 CTO 張建鋒宣佈成立達摩院

杭州雲棲大會現場,阿里巴巴 CTO 張建鋒宣佈達摩院正式成立,計劃未來 3 年裡投入超過 1000 億元,用於涵蓋基礎科學和顛覆式技術創新的研究。iDST 作為達摩院旗下最大的機器智能實驗室分支,由金榕任帶隊。

時至今日,再談大公司建立研究院已不是新鮮事,但適應於中國本土市場環境的成功模板仍然寥寥可數。

培養出中國最早一批 AI 研究員的微軟亞洲研究院被冠以「黃埔軍校」之名頻頻提起,投入巨大過於前沿的谷歌 X 實驗室、DeepMind,IBM Waston 研究院形象「高大上」卻不夠接地氣。

中國互聯網公司已經開始重點佈局,但難以與公司業務平起平坐,百度幾大研究體系已被收編進技術平臺,騰訊四大實驗室依附於各大業務呈分散狀。

至於阿里,在達摩院之前的三年探索和走過的彎路為其積累了不少寶貴經驗,但如何乘勝追擊更進一步成為領導者的新命題。

在金榕看來,達摩院的設立主要有兩個目標:一是把達摩院的 AI 基礎能力(原子能力)放到平臺上支撐所有業務。比如阿里內部跟語音識別有關的業務都會使用達摩院的底層語音平臺,但會根據具體業務做定製化的改變。

二是上雲,通過內部核心業務驗證後,用戶的接受度和滿意度達到一定指標,產品上雲商業化,進一步放大價值,服務整個社會。

說到這,四年前王堅為金榕描繪 iDST 藍圖,三句不離「Benchmark」的畫面在我眼前浮現。

「我記得從第一天起,王堅就一直跟我們說 iDST 的 Benchmark 的是什麼?」金榕說道。(Benchmark,基準,常用於性能測試中的表達。)

王堅認為是斯坦福研究院(簡稱 SRI,1970 年脫離斯坦福大學後,更名為「斯坦福國際諮詢研究院」)。「那裡的基礎研究和其他地方都不一樣,不僅創造出了最好的理論知識,還能把技術變成產品,產品收益再反哺到學術」,金榕回憶道,那時常舉的一個例子就是鼠標的發明。

不止於鼠標,從手術機器人到航天靜電放電棒,從個人助理 Siri 再到癌症治療,二戰後的斯坦福研究所幾乎成了硅谷高科技公司科技創新的「智慧之源」,不僅創造了新的行業、數十億美元的市場價值,還有持久的社會價值。

「一旦看到收益,人們很容易就聚焦在收割單個業務的成果上,而缺少更深入挑戰的動力」,金榕認為這也是達摩院——阿里 AI 技術中臺設立的意義——跳出單個業務成果,讓技術更深入,再往前跨一步,用更少的人力實現價值最大化。

經過兩年的建設,達摩院人才濟濟,超過半數科學傢俱有名校博士學位,部分是美國、歐洲學成回國,辦公室分佈在四個國家、八個主要城市,其中機器智能團隊擁有 20 多位知名大學教授,近 10 位 IEEE FELLOW。

而在達摩院之外,阿里還有一些更為分散化、業務化的人工智能能力,並非走中臺化的路子,但仍是不可或缺的一環。比如天貓精靈、搜索和廣告部的人工智能技術應用、螞蟻金服的客服機器人等,它們與核心業務方貼合地更為緊密,以便技術更快地產生效益。

要為這樣一支龐大而高規格的研究團隊設置課題並不是件容易事。

此前,我在與某公司 AI 實驗室負責人交流時,對方就曾透露過選題上的兩難局面——一方面既要兼顧業務需求和 KPI 導向,另一方面還不能忘記前瞻性研究和技術佈局。

整日埋頭對接業務需求容易退化為業務部門的附屬團隊?但面對前沿課題的不確定性,究竟該冒多大的險,才能保證既有結果又具備開創性?

當我將同樣的問題拋給阿里的人工智能科學家時,得到了相似的回答,「這看起來是個問題,但在阿里就不是個問題」。

延續技術到產品、產品再到商業化的研究和落地機制,技術研發與商業利益的問題將得以平衡,而且必須平衡。

「在阿里如果只是發發論文、做做研究則意味著工作只做到了一半,無法獲得真正的認可,或者是比較低的認可」,潘攀說道。

與此同時,在技術平臺化與產品規模化的過程中,還伴隨著水到渠成的技術成果轉化。

在被譽為人工智能世界盃的 CVPR 2019 WebVision 競賽中圖像分類競賽中,阿里以 82.54% 的識別準確率獲得冠軍,而這背後的技術能力正是阿里「圖搜」應用開出的果實。

談到更為宏觀的議題佈局,金榕認為投資者思維或許是一個思路。

作為一名投資人,標的無非兩種,一是比較切實可靠的項目,但是收益比較少;另一種則是高風險,但回報高,即所謂的「High Risk High Take Off」。幾乎所有投資公司的投資組合都是這兩種的混合。

作為研發部門,金榕會將技術資源進行分層。一部分投資在相對較容易見到結果的領域上,具備確定性;還有一部分投入在可長週期回報的項目。「在這樣一個投資組合中,肯定有項目要失敗,但能保證團隊整體的成長和健康」,金榕談道。

正好,他剛帶隊打完了一場「High Risk」的戰役。

那是阿里正在研發的自主雲上人工智能加速芯片 NPU,達摩院承擔了部分算法工作,讓 NPU 在阿里的技術架構上跑出最高性能。

為了能拿到 CTO 的「戰投」,金榕預先設置了一個非常高的指標,即假設所有條件都處於非常理想的條件下,相比 GPU 的性能有了不小的提升。

硬著頭皮上,一年多下來,終於收穫了理想結果。在金榕看來,設定高目標雖然可能會引發焦慮和不適,但高目標的每一次落地都將為團隊實力帶來顯著提升,「這對於打造榮譽感,提振團隊士氣非常奏效」。

在阿里內部有一句話,「最好的團建就是打一場勝仗」,融入阿里文化後的科學家們也開始明白這個道理了。

金榕身上所展現的冒險精神,一部分來自他的個人性格,一部分還受到阿里早期技術氛圍的感染。早年間,王堅力排眾議主導開發阿里雲計算平臺時,就常以一個「瘋子」的形象活躍在公司內部。

「如果你當真要解決難題,就需要調動你所有的膽量和勇氣去接受挑戰」,金榕談道。

在計算機研究領域,通常將非常棘手的問題稱之為「NP-Hard」,大多數研究員一旦碰到這樣的問題都會給出否定的結論。但金榕的團隊所推崇的恰是「Solve The Ban Problem」。

「在商業社會,用戶和商家才不會在乎這個,你不能因為 NP-hard 就止步」,金榕談道,「這對我來講是非常重要的原則,但凡這個研究是能夠產生巨大價值,就應該全身心投入」。

不畏「禁忌」、冒險而大膽——這是我從他人口中未曾聽說過的達摩院。

一脈相承的風格不可避免地將滲透進團隊,一旦拔得頭籌就將能讓每個成員體會到以一當十的驚險,擁有勝者的姿態,繼而發展成為阿里 AI 精神內核的一部分。

當上層建築搭建完整,更為底層的技術正亟待突破,最為核心的指標在於算力。

早年間漆遠接手的首個項目大規模分佈式機器學習平臺,隨後由達摩院智能計算實驗室負責人周靖人帶隊不斷迭代和完善,已經進入到第三代版本 PAI 3.0。今年三月加盟阿里的 AI 知名青年科學家賈揚清還將為 PAI 注入更多力量。

賈揚清畢業於美國加州大學伯克利分校計算機科學博士,加入阿里前在 Facebook 擔任工程總監,負責大規模人工智能平臺的架構。他是 AI 深度學習框架 Caffe、Caffe2、Pytorch 的重要貢獻者之一,並曾參與谷歌人工智能平臺 TensorFlow 的工作,GoogleNet 作者的之一。

因為深度學習框架領域的諸多貢獻,賈揚清在人工智能開發者群體中具有頗高人氣,在今年 7 月的阿里雲峰會上,賈揚清首次以阿里人身份亮相,不斷有年輕人過來和他談話與合影。

"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

揭祕阿里人工智能這五年:天才的野心與自證

漆遠,現達摩院金融智能實驗室 負責人

加入阿里後,漆遠接到的首個任務是打造一套大規模機器學習平臺,落地到淘寶的廣告平臺阿里媽媽。他清楚地記得,當時手裡攥著兩千萬特徵,14 天的數據。由於數據量太少,他計劃積累到半年數據後再啟動。

同時,他還提交了一份申請數千臺服務器的計劃。這並不是一筆小數目,直到現在一塊英偉達的計算卡仍然要價 2000 美金,計劃討論後就被否決了。

等了半年,服務器仍沒有撥下來,巧婦也難為無米之炊。「當時沒有 CPU 集群,整個集團都沒有」,漆遠說道,「同事們認為,『你們這幫教授老師過來,基本不懂業務,也不懂技術』」。

秀才遇到兵,有理說不清。漆遠的團隊陷入了不能「自證」的悖論裡:沒有 CPU 集群,如何證明自己的算法和技術高效?不能證明自己的算法和技術高效,如何爭取到 CPU 集群?

漆遠曾試圖據理力爭,僵持狀態幾近半年,「團隊一度走在解散的邊緣」。

金榕是 iDST 的另一位創始人,美國密歇根州立大學終身教授,曾獲得過美國國家科學基金會獎(漆遠也獲得過該獎)——有超過 200 位諾貝爾獎得主都獲得過這個獎金的資助。

揭祕阿里人工智能這五年:天才的野心與自證

金榕,現達摩院機器智能研究領域 負責人

金榕帶領團隊為「聚划算」提供流量分發的技術優化,團隊很自然地把低價商品排列在搜索和推薦結果的前列以提升成交量,卻忽視了對業務本質的理解——低價雖可刺激購買,卻讓目標用戶群從二三城市轉移到三四線城市。

「雖然 GMV 上去了,但產品的價值都變了」,金榕說道。

業務為技術開路,科學家們卻在無意中篡改了產品的內核,「短板暴露得非常明顯」,金榕談道。當時團隊多為研究背景,精通基礎理論,卻缺少業務理解和工程實踐經驗,所以看不到技術到產品中間的巨大鴻溝。

「你們要想在阿里發揮出真正的價值,就必須克服這些困難」,當時的阿里 COO 張勇找到金榕和幾個骨幹說道。

既然不夠熟悉業務,那就去到第一現場吧!

於是,iDST 的早期科學家們兵分多路,以電商和金融兩大核心業務為首,深入到產品和工程裡。金榕帶著團隊進入到淘寶和天貓的搜索事業部,漆遠和幾位同事去了螞蟻金服,做語音的團隊則留在了阿里雲。後來這被稱為阿里科學家們的「上山下鄉」運動。

技術的覺醒並不止於高層,更早些,一股從下至上的創新力量就竄上了頭,內部創新的文化開始流行——「只要你的老大不反對,就是對你最大的支持」。

2013 年的十一國慶,李昊印象尤其深刻。他沒有旅遊計劃,也不用回老家走街串巷,而是一人悶頭在辦公室裡搗鼓。一連七天,他都在工位上敲打著鍵盤,像是著了魔。

終於,趕在假期結束前,他長舒一口氣——Demo 跑通了,由一塊 GPU 搭上一臺主機,純手寫的用於圖像搜索的深度學習算法。再簡陋不過的裝置,但結果令人欣慰——比傳統算法的準確度有了明顯提升。

正值第三次人工智能浪潮起勢,ImageNet 大賽進入到第三屆,深度學習教父 Geoff Hinton 和他學生設計的 AlexNet 在賽事中大放異彩,基於深度神經網絡的思路一舉解決了圖像分類的棘手難題,至此開啟神經網絡百家爭鳴的盛況,更深、更寬的網絡層出不窮。

李昊從外文網站上讀到這些消息時備受鼓舞,他博士畢業於中科院光電技術研究所,來阿里不到一年,滿腔學以致用的迫切。

揭祕阿里人工智能這五年:天才的野心與自證

李昊,阿里巴巴資深算法專家

早在 2010 年,谷歌豪擲 1 億美金收購圖像購物搜索網站 Like.COM,掀起全球圖像搜索的風口。文字搜索場景有限,圖片描述更為加精確,微軟、亞馬遜、百度紛紛出手,阿里也順勢投資了一家圖蒐購物網站(現名為「淘淘搜」),通過識別圖片上的實體物品來索引網絡上對應的店鋪鏈接。

遺憾的是,隨著移動互聯網時代的到來,圖搜風口很快熄火,手機實拍圖的普及,讓搜索結果越來越不可控,圖搜應用體驗大幅受挫,不少創業公司瀕臨倒閉。

「實拍圖的比對相比 PC 的原圖難得不是一星半點,已經不是傳統圖搜技術能應付過來的」,李昊說道。

既然傳統圖搜技術已經無以為繼,那在視覺領域技驚四座的深度神經網絡能否奏效?為此,李昊花了整個國慶假期來驗證這個想法。

「他很興奮,一直給這個看,給那個看,非常大力地推廣」,李昊回憶起將Demo交給主管時的場景。就這樣,團隊爭取到一次向時任淘寶 CEO 展示的機會,這次是直接在手機端演示——手機拍照,實拍圖和庫裡已有圖片做比對檢索,找到和相似的照片顯示——相比傳統算法提升了一倍。

很快,「圖像搜索」項目在 2014 年正式啟動,目標是落地到手淘(手機淘寶應用)平臺。

剛來阿里三個月的潘攀被任命為負責人,兼顧算法、工程、產品的統籌,團隊力量充沛。潘攀畢業於美國伊利諾伊大學芝加哥分校博士,此前在美國三菱波士頓研究院、北京富士通研發中心從事視覺領域的研發工作。

揭祕阿里人工智能這五年:天才的野心與自證

潘攀,現達摩院視覺智能研究領域 資深算法專家

延續此前團隊推動的技術路徑,「圖搜」採用深度學習技術,隨之成為阿里歷史上最早採用深度學習技術並上線的 C 端應用產品。

和大多數互聯網公司戰略先行的思路不同,阿里在技術探索的早期並沒有大刀闊斧地批項目,而是從現有的核心業務盤子上找切口,剋制而謹慎地實驗性驗證,然後才推動落地。

「當組織裡的算法和研發比較少,更多是由業務和產品構成時,就決定了大家對於技術不確定性的理解會非常有限」,潘攀說道,「對於一家互聯網公司,做項目就一定要做出來,看得到結果」。

這是一個又艱難又幸運的過程,當行動早於認知,缺少資源、無人信任、無法施展等困境便接踵而來,這既是商業公司的盈利性質所決定的,也是新生事物萌芽期所必經的考驗。

但幸運的是,無論是自上而下的理想主義,還是自下而上的創新力量都得以保留,倖免於曇花一現的口號和想法。

火種尚存便可以燎原。

2. 坐在金山上啃饅頭

「坐在金山上啃饅頭」,這是漆遠加入 iDST 時聽馬雲說過的話。金山就是阿里巴巴擁有的豐富數據。但是即便坐擁金山啃饅頭,也難以一口吃成個大胖子,「如果數據的價值不能被挖掘出來,那不過就是普通的土壤」。

隨著深度學習算法與模型的普及應用,「調參」工作成為大部分算法工程師的日常,淘寶和天貓的搜索團隊一開始也不例外。

因為深度學習算法的不可解釋性,很多基於該技術的方案就像是一個「黑盒」,模型中的參數選擇和調整成了一件難捉摸的事,往往意味著繁瑣而毫無頭緒,沒有技術含量。

在漆遠看來,光是調參遠不能建立起技術體系,「雖然屬於工程層面的工作,但仍需要科學的思想指導——最好的工程指導就是科學,否則你就只能是一名調參工程師」。

與漆遠秉持同一觀點的還有金榕。「原來我們都是做些調參工作,直到金榕老師來了之後才把我們帶上正軌」,李昊談道,「他常反問我們,深度學習為什麼能奏效?你能從理論上解釋嗎?」

「圖搜」項目之後,李昊便來到了搜索技術部——阿里最為核心的算法部門之一。在這裡,李昊遇到了前來深入業務第一線的金榕。

李昊當時的主要工作是為深度學習模型進行壓縮與加速優化,一般做法是套用現有模型,但金榕通常會提供新的思路,「他給了我們一堆的公式,讓我們去試」,但這一試就是三個月,也沒出結果。

當李昊和同事懷著忐忑的心情找到金榕,他並沒有因此責備,反而給予鼓勵,「如果三個月就能做出來,那就是太簡單了,繼續去做吧!」直到第四個月算法總算跑通。這套算法將Embedding 技術結合深度學習引入到搜索業務中,明顯提升了淘寶主搜索的 GMV。

李昊回憶,當時金榕還做了一套非常長的理論證明,證明算法是可收斂的,並在內部分享,「他當時給予我們的理論指導,正是我們所稀缺的」,李昊對此十分感激。

來到螞蟻金服的漆遠則接到了智能客服的項目,通過智能交互機器人來解決支付寶的客服問題。這一次,他順利很多,獲得當時集團客戶服務部負責人戴珊的支持後(戴珊是阿里巴巴早期創始的十八羅漢之一),很快爭取到了資金和資源進行技術的驗證。

在阿里科技發展早期,以阿里合夥人為代表,形成了一股來自理想主義的推動力量。

2015 年的雙十一,首次採用深度學習技術的支付寶客服實現了 94% 語音自助,這意味著有 94% 打來的電話不再需要轉接到人工服務,次年,這個數字提升到 97%。去除掉人工智能團隊的人員工資和計算資源成本,智能客服項目為公司節省了一個多億。

所謂「知人善用,人盡其才」,技術工具同樣如此,唯有了解 AI,才能用好 AI。

要在一家互聯網公司裡樹立起對於新技術的認知和信仰並非易事,這為科學家們設置了一道又一道的障礙欄,甚至不可避免地造成了人員流失。

但回過頭來看,或許正是有了「上山下山」的共事經歷,才算是真正打通了「研發」和「業務」的對話體系,讓陽春白雪和下里巴人從此互融。

技術之後,便是產品工程化的進階挑戰。

哪怕有高層支持,也不意味著就此被保駕護航,伴隨而來的反而是更大的壓力。圖搜立項的第一年就設定了明確目標——日活過百萬,「打從立項之初就不再是實驗性的了」。

與初期的深度學習算法探索不同,後期的挑戰就像無底洞一樣填不滿。

「問題的關鍵在於,我們不是在做一個獨立的 APP,而是讓它落在手淘上」,潘攀說道,「而且還是阿里最為核心的業務平臺」。落地手淘,意味著圖搜需要調用手淘的底層接口,需要針對淘寶內部的鏈路架構做額外定製和調配,而淌通這些鏈路就是最大挑戰。

在視覺領域,大規模圖片的壓縮極其消耗算力,這為大規模的圖搜訪問埋下了隱患,一次意外報警讓潘攀記憶猶新。

一天,圖搜的服務器突然被拖垮,後臺出現報警。

經過緊急排查,團隊才發現,原來是淘系後臺針對圖像上傳的默認壓縮功能拖垮了服務器。默認壓縮主要針對低頻、小訪問量的媒體上傳需求,但並沒有考慮到圖搜的特殊情況——數據規模大,且需要實時識別,所以已經在前端預設壓縮功能。換句話說,淘系的圖片默認壓縮對於圖搜反而是一種負擔。

在發生警報之前,大家都忽略了這麼細微的接口。潘攀談道,「很多時候就是這樣,即使我們自己考慮到位了,但如果要連接到更大的系統上,還是會出問題」。

上線並不意味著挑戰結束,比如,還有深不可測的入口。潘攀清楚地記得,圖搜第一次上線的位置是手淘的一個四級菜單裡。「四級」,則意味著你首先要在首頁裡找到「發現」,然後點開「特色服務」,點擊「更多」,再……

作為阿里最為核心的業務戰場,手淘的態度顯而易見——「願意給技術機會,但也要求風險可控」。

機會需要爭取,更需要「自證」其價值。

從最初上線的數千日活,過百萬,過千萬,一直到突破 2000 萬,圖搜應用一路躍升為淘寶首頁導購類目的第一。但與此同時,外界的質疑聲不斷,「我印象特別深,每一年大家都在問,數據還能增長嗎?……你還在做呀?做啥呢?」潘攀說道。

不被理解似乎成為開拓者的宿命,漆遠回憶早期的探索時期,「當時對我最大的鍛鍊就是,不被理解是正常的」。

這或許可以稱之為某種樂觀主義,但毋庸置疑,對於技術的信仰正是面對困境和誤解時不可或缺的堅實力量。

經歷過焦灼而艱難的資源「抗爭」後,漆遠手中的分佈式機器學習平臺終於啟動,為了儘早讓平臺上線,團隊放棄年底休假,春節期間留守奮戰,骨幹密集開會頭腦風暴。「當時切身地感受到了團隊的戰鬥力,大家真的是非常相信,只要上線效果一定能好」,漆遠回憶。

雙十一期間,平臺首次實現淘寶、天貓個性化推薦的大規模應用。那一年的阿里巴巴集團算法大獎上,漆遠帶領 80 人的團隊包攬了 16 項獎中的 6 項。現在,漆遠作為達摩院金融智能方向的負責人,帶領團隊構建面向金融經濟場景的智能分析與決策技術。

另一邊,在經歷了搜索類目擴增、數據優化、算法迭代等多方面的升級後,「圖搜」項目完成三次入口躍遷,終於在 2015 年雙十一期間進入首頁。讓潘攀頗為自豪的是,圖搜的數據一直依靠自然增長,幾乎沒有調用過手淘的商業推廣資源。

入口升級的本質是一個不斷「自證」的過程,由技術和技術背後的推動者們在一次又一次的挑戰中完成,繼而固化下來成為阿里技術產品的迭代傳統。

不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

高速增長的背後是兩年一次的系統大改,「阿里其實非常講究創新,我們一般都不炒冷飯」,潘攀說道,他將圖搜系統的發展分為三個時期,「每一次升級不僅是算法進步,而是整體思路的提升」。

「數據、系統、算法三個互為一體。對數據認知和處理方法的不同視角,催生了與之匹配的算法和工程系統,所以升級是整個系統層面的」。

項目早期,數據量少,還需要人工標註,所以研究為之匹配的小模型的系統和算法;隨後訓練數據解放,團隊嘗試通過用戶行為的三類數據(查詢數據、點擊數據、未點擊數據)分析出數據與排序間的邏輯關係,三元組的 Deep Ranking 框架生成,與之對應的訓練框架、系統升級迭代;去年,圖搜開始接入超大規模並行處理平臺,釋放數十億級數據的訓練能力。

與百度識圖、微信掃一掃、京東拍照購等市面上的其他圖搜應用不同,阿里更強調「通用化」能力,比如不僅能支持手淘所有的實體商品檢索,還包括二維碼、植物、垃圾等非商品的識別與分類。這些功能統統集成在圖搜一個窗口裡,不用再二次跳轉,平均日活達到 2000 萬以上。

在研究員的成長道路上,經歷一次完整的技術工程化落地的意義重大,它不僅錘鍊了實戰能力,更為其提供了深入瞭解業務所想、業務所需的窗口。

「這段經歷讓我們明白了應該創造和推動什麼樣的技術,知道哪些技術更有可能落地成為產品,以及如何讓一個產品能夠有效地支撐業務」,金榕談道。

可以說,從研發到業務的實戰積累正是阿里打造AI 技術落地體系的基石。

如今,這套思想貫徹到阿里大大小小的技術思路中。比如,在語音技術團隊今年推出的語音合成技術 KAN-TTS(Knowledge-Aware Neural TTS)中,團隊就事先考慮到了不同環境下的模型部署環境,並進行框架設計和效率優化,綜合各項需求的關鍵算法改進多達20餘項,最終實現了無論是在雲端還是終端,甚至是 CPU 存儲有限情況下的最快速度部署。

一項技術能否在設計之初就考慮到項目部署階段遇到的各種實際問題,正是技術落地體系成熟的重要標誌。

3. 中國研究院沒有Benchmark

「它是阿里巴巴國際化業務的技術生命線,如果沒有這些能力,阿里巴巴很難稱之為一家國際化公司」,這段底氣十足的話出自司羅。

他是阿里達摩院語言技術實驗室負責人,帶領百餘人的隊伍進行自然語言理解、機器翻譯、認知智能等底層技術的開發,這些技術被譽為人工智能皇冠上的明珠。

揭祕阿里人工智能這五年:天才的野心與自證

司羅,現達摩院語言技術實驗室 負責人

司羅專注於機器學習、NLP 等領域的研究,2012 年成為普渡大學計算機系終身教授後,一舉奠定了其在學術圈的地位。同金榕、漆遠一批,司羅在 2014 年加入 iDST,是阿里建立人工智能技術體系的早期成員。

相較於視覺、語音更貼近前端用戶的技術,語言則更偏向底層,以原子化能力的形式起作用,扮演著賦能和支撐的角色。正因為這個特點,它對於大型互聯網技術公司而言往往不可或缺,但技術團隊卻又是極其分散的。

既然如此,為何不集中力量打通?

於是,語言技術恰好成為了技術平臺化的最佳試驗場。

2016 年 10 月,對於司羅和 NLP 團隊而言是一個重要的時間節點。此前,他們忙於承接一個個「項目」,先後參與過「聚划算」、「AIios」「淘寶頭條」等項目。

在這之後,司羅領到任務——將 NLP 的「大中臺」建立起來,換句話說,阿里各業務線的 NLP 不再各自為營。

為了讓其他業務線接入平臺,司羅採取了「品牌效應」的打法。

是的,在公司內部,同樣需要建立品牌,尤其在打造規模化平臺的過程中。

「首先要有非常貼身的服務,然後讓重點的頭部用戶用起來,逐步地讓他們認識到 NLP 平臺和解決方案的好處,再通過種子用戶將我們的技術價值傳播出去」,司羅知無不言地分享了品牌效應的打造「套路」。

而正是因為技術平臺化的出現,讓這隻百餘人的隊伍能夠支持阿里系 600餘個業務方,每天調用量達到了兩萬億次。

這是 NLP 技術影響力從量變到質變的飛躍。

沿用同樣的思路,司羅帶領的另一條技術分支——機器翻譯技術也實現了規模化的業務支撐能力,為阿里全球化電商平臺上的買賣雙方提供 20 多種語言,48 種語言方向的機器翻譯服務,覆蓋歐洲、亞洲、美洲與中東地區的絕大多數國家。

阿里的圖搜應用在技術平臺化升級後,從最早的支持手淘平臺到目前落地到淘系的六個主流 APP,一舉成為全球最大的圖搜應用系統。「這是淘系業務的市場份額決定的」,潘攀說道。

從單個功能應用,到十個、百個、數百個的業務方支持,每天被億級用戶使用,技術平臺化的戰略得到了有效驗證與認可。尤其對於技術人員而言,通過平臺化的過程,單點技術的影響力不斷被泛化,技術的品牌效應不斷地被放大。

但對於當下的阿里而言,平臺化尚非終點,「上雲」更是一片廣闊的天地。

阿里內部的海量業務和長期實戰的檢驗,為技術與方案移植到阿里雲平臺提供了硬核實力。司羅表示,NLP 平臺和機器翻譯平臺已經先後在阿里雲上的人工智能板塊上線,供第三方的雲計算客戶使用。

從單純的技術算法,到集成為業務和應用中的產品,再到平臺化和大規模可複製化的雲計算商品,這是一條阿里人自己走出來的 AI 落地路。

是時候將這條路子固化下來了!

2017 年 10 月 11 日,是阿里人工智能技術體系開宗明義的日子。

揭祕阿里人工智能這五年:天才的野心與自證

阿里巴巴 CTO 張建鋒宣佈成立達摩院

杭州雲棲大會現場,阿里巴巴 CTO 張建鋒宣佈達摩院正式成立,計劃未來 3 年裡投入超過 1000 億元,用於涵蓋基礎科學和顛覆式技術創新的研究。iDST 作為達摩院旗下最大的機器智能實驗室分支,由金榕任帶隊。

時至今日,再談大公司建立研究院已不是新鮮事,但適應於中國本土市場環境的成功模板仍然寥寥可數。

培養出中國最早一批 AI 研究員的微軟亞洲研究院被冠以「黃埔軍校」之名頻頻提起,投入巨大過於前沿的谷歌 X 實驗室、DeepMind,IBM Waston 研究院形象「高大上」卻不夠接地氣。

中國互聯網公司已經開始重點佈局,但難以與公司業務平起平坐,百度幾大研究體系已被收編進技術平臺,騰訊四大實驗室依附於各大業務呈分散狀。

至於阿里,在達摩院之前的三年探索和走過的彎路為其積累了不少寶貴經驗,但如何乘勝追擊更進一步成為領導者的新命題。

在金榕看來,達摩院的設立主要有兩個目標:一是把達摩院的 AI 基礎能力(原子能力)放到平臺上支撐所有業務。比如阿里內部跟語音識別有關的業務都會使用達摩院的底層語音平臺,但會根據具體業務做定製化的改變。

二是上雲,通過內部核心業務驗證後,用戶的接受度和滿意度達到一定指標,產品上雲商業化,進一步放大價值,服務整個社會。

說到這,四年前王堅為金榕描繪 iDST 藍圖,三句不離「Benchmark」的畫面在我眼前浮現。

「我記得從第一天起,王堅就一直跟我們說 iDST 的 Benchmark 的是什麼?」金榕說道。(Benchmark,基準,常用於性能測試中的表達。)

王堅認為是斯坦福研究院(簡稱 SRI,1970 年脫離斯坦福大學後,更名為「斯坦福國際諮詢研究院」)。「那裡的基礎研究和其他地方都不一樣,不僅創造出了最好的理論知識,還能把技術變成產品,產品收益再反哺到學術」,金榕回憶道,那時常舉的一個例子就是鼠標的發明。

不止於鼠標,從手術機器人到航天靜電放電棒,從個人助理 Siri 再到癌症治療,二戰後的斯坦福研究所幾乎成了硅谷高科技公司科技創新的「智慧之源」,不僅創造了新的行業、數十億美元的市場價值,還有持久的社會價值。

「一旦看到收益,人們很容易就聚焦在收割單個業務的成果上,而缺少更深入挑戰的動力」,金榕認為這也是達摩院——阿里 AI 技術中臺設立的意義——跳出單個業務成果,讓技術更深入,再往前跨一步,用更少的人力實現價值最大化。

經過兩年的建設,達摩院人才濟濟,超過半數科學傢俱有名校博士學位,部分是美國、歐洲學成回國,辦公室分佈在四個國家、八個主要城市,其中機器智能團隊擁有 20 多位知名大學教授,近 10 位 IEEE FELLOW。

而在達摩院之外,阿里還有一些更為分散化、業務化的人工智能能力,並非走中臺化的路子,但仍是不可或缺的一環。比如天貓精靈、搜索和廣告部的人工智能技術應用、螞蟻金服的客服機器人等,它們與核心業務方貼合地更為緊密,以便技術更快地產生效益。

要為這樣一支龐大而高規格的研究團隊設置課題並不是件容易事。

此前,我在與某公司 AI 實驗室負責人交流時,對方就曾透露過選題上的兩難局面——一方面既要兼顧業務需求和 KPI 導向,另一方面還不能忘記前瞻性研究和技術佈局。

整日埋頭對接業務需求容易退化為業務部門的附屬團隊?但面對前沿課題的不確定性,究竟該冒多大的險,才能保證既有結果又具備開創性?

當我將同樣的問題拋給阿里的人工智能科學家時,得到了相似的回答,「這看起來是個問題,但在阿里就不是個問題」。

延續技術到產品、產品再到商業化的研究和落地機制,技術研發與商業利益的問題將得以平衡,而且必須平衡。

「在阿里如果只是發發論文、做做研究則意味著工作只做到了一半,無法獲得真正的認可,或者是比較低的認可」,潘攀說道。

與此同時,在技術平臺化與產品規模化的過程中,還伴隨著水到渠成的技術成果轉化。

在被譽為人工智能世界盃的 CVPR 2019 WebVision 競賽中圖像分類競賽中,阿里以 82.54% 的識別準確率獲得冠軍,而這背後的技術能力正是阿里「圖搜」應用開出的果實。

談到更為宏觀的議題佈局,金榕認為投資者思維或許是一個思路。

作為一名投資人,標的無非兩種,一是比較切實可靠的項目,但是收益比較少;另一種則是高風險,但回報高,即所謂的「High Risk High Take Off」。幾乎所有投資公司的投資組合都是這兩種的混合。

作為研發部門,金榕會將技術資源進行分層。一部分投資在相對較容易見到結果的領域上,具備確定性;還有一部分投入在可長週期回報的項目。「在這樣一個投資組合中,肯定有項目要失敗,但能保證團隊整體的成長和健康」,金榕談道。

正好,他剛帶隊打完了一場「High Risk」的戰役。

那是阿里正在研發的自主雲上人工智能加速芯片 NPU,達摩院承擔了部分算法工作,讓 NPU 在阿里的技術架構上跑出最高性能。

為了能拿到 CTO 的「戰投」,金榕預先設置了一個非常高的指標,即假設所有條件都處於非常理想的條件下,相比 GPU 的性能有了不小的提升。

硬著頭皮上,一年多下來,終於收穫了理想結果。在金榕看來,設定高目標雖然可能會引發焦慮和不適,但高目標的每一次落地都將為團隊實力帶來顯著提升,「這對於打造榮譽感,提振團隊士氣非常奏效」。

在阿里內部有一句話,「最好的團建就是打一場勝仗」,融入阿里文化後的科學家們也開始明白這個道理了。

金榕身上所展現的冒險精神,一部分來自他的個人性格,一部分還受到阿里早期技術氛圍的感染。早年間,王堅力排眾議主導開發阿里雲計算平臺時,就常以一個「瘋子」的形象活躍在公司內部。

「如果你當真要解決難題,就需要調動你所有的膽量和勇氣去接受挑戰」,金榕談道。

在計算機研究領域,通常將非常棘手的問題稱之為「NP-Hard」,大多數研究員一旦碰到這樣的問題都會給出否定的結論。但金榕的團隊所推崇的恰是「Solve The Ban Problem」。

「在商業社會,用戶和商家才不會在乎這個,你不能因為 NP-hard 就止步」,金榕談道,「這對我來講是非常重要的原則,但凡這個研究是能夠產生巨大價值,就應該全身心投入」。

不畏「禁忌」、冒險而大膽——這是我從他人口中未曾聽說過的達摩院。

一脈相承的風格不可避免地將滲透進團隊,一旦拔得頭籌就將能讓每個成員體會到以一當十的驚險,擁有勝者的姿態,繼而發展成為阿里 AI 精神內核的一部分。

當上層建築搭建完整,更為底層的技術正亟待突破,最為核心的指標在於算力。

早年間漆遠接手的首個項目大規模分佈式機器學習平臺,隨後由達摩院智能計算實驗室負責人周靖人帶隊不斷迭代和完善,已經進入到第三代版本 PAI 3.0。今年三月加盟阿里的 AI 知名青年科學家賈揚清還將為 PAI 注入更多力量。

賈揚清畢業於美國加州大學伯克利分校計算機科學博士,加入阿里前在 Facebook 擔任工程總監,負責大規模人工智能平臺的架構。他是 AI 深度學習框架 Caffe、Caffe2、Pytorch 的重要貢獻者之一,並曾參與谷歌人工智能平臺 TensorFlow 的工作,GoogleNet 作者的之一。

因為深度學習框架領域的諸多貢獻,賈揚清在人工智能開發者群體中具有頗高人氣,在今年 7 月的阿里雲峰會上,賈揚清首次以阿里人身份亮相,不斷有年輕人過來和他談話與合影。

揭祕阿里人工智能這五年:天才的野心與自證

賈揚清,現阿里巴巴計算平臺事業部 總裁

正值浙江一帶的酷暑,採訪室十分悶熱。「我是紹興人,沒法抱怨這天氣」,賈揚清笑著說道。清華碩士畢業後,賈揚清就長居海外,因為轉戰阿里而經常回國。紹興距離杭州不到 80 公里,來到阿里,不僅是回國,更是回鄉,賈揚清臉上有些止不住的喜悅。

和賈揚清前後腳來到阿里的還有黃非,在金榕和司羅兩位老師的力薦下加入。黃非畢業於卡內基梅隆大學博士,曾任 ACL、NLPCC 等領域主席、IJCAI 資深程序委員,在 Facebook 時負責機器翻譯和知識平臺。加入阿里後負責組建和領導國際化機器翻譯創新團隊。

一如當年的漆遠、金榕一樣,這些年輕科學家們帶著由衷的使命感和期待來到「金山」,期待著實現自我價值的同時,也為阿里經濟體和中國互聯網做出應有的貢獻。

4. 阿里的底牌

當一件事物愈發完美或者強大,外界在其身上所寄託的期望值也將越來越高。

「最開始,公司只是希望技術能用在業務上得到一個好效果。今天,是真正希望我們能夠用技術創造未來,一個新的由技術驅動的阿里巴巴」,金榕停了一會繼續說道,「這個期望遠高於技術難題,是一個非常大的命題」。

一個技術驅動的阿里巴巴?可能嗎?

在絕大部分人的眼中,對於阿里的定義仍然是一家依靠電商業務驅動的互聯網公司。在 2019 財年的財報裡,阿里的核心業務包括電商業務、阿里雲、大文娛和創新業務四大板塊,其重要性依次排開。其中,電商業務創造了 3234 億收入,總營收佔比高達 86%。

「這正是外界看不太懂的地方,我們可不可能創造未來?」

在金榕眼裡,這個未來似乎已經依稀可見,「我給你舉個例子,至少我自己是非常受激勵的,5G 技術就是突破口之一。隨著 5G 和高清視頻技術的發展,整個視頻內容產業鏈都會帶來全新的變化,是對每一個環節的重塑……」

AI 之後,5G 之前,前瞻性的技術佈局和技術融合或將為阿里踩準下一個時代節點。

讓我們把時間線拉近一些,現在或者近期的幾年內,在阿里的主營業務之下,還有什麼能稱之為源動力或者底牌的東西?


"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

揭祕阿里人工智能這五年:天才的野心與自證

漆遠,現達摩院金融智能實驗室 負責人

加入阿里後,漆遠接到的首個任務是打造一套大規模機器學習平臺,落地到淘寶的廣告平臺阿里媽媽。他清楚地記得,當時手裡攥著兩千萬特徵,14 天的數據。由於數據量太少,他計劃積累到半年數據後再啟動。

同時,他還提交了一份申請數千臺服務器的計劃。這並不是一筆小數目,直到現在一塊英偉達的計算卡仍然要價 2000 美金,計劃討論後就被否決了。

等了半年,服務器仍沒有撥下來,巧婦也難為無米之炊。「當時沒有 CPU 集群,整個集團都沒有」,漆遠說道,「同事們認為,『你們這幫教授老師過來,基本不懂業務,也不懂技術』」。

秀才遇到兵,有理說不清。漆遠的團隊陷入了不能「自證」的悖論裡:沒有 CPU 集群,如何證明自己的算法和技術高效?不能證明自己的算法和技術高效,如何爭取到 CPU 集群?

漆遠曾試圖據理力爭,僵持狀態幾近半年,「團隊一度走在解散的邊緣」。

金榕是 iDST 的另一位創始人,美國密歇根州立大學終身教授,曾獲得過美國國家科學基金會獎(漆遠也獲得過該獎)——有超過 200 位諾貝爾獎得主都獲得過這個獎金的資助。

揭祕阿里人工智能這五年:天才的野心與自證

金榕,現達摩院機器智能研究領域 負責人

金榕帶領團隊為「聚划算」提供流量分發的技術優化,團隊很自然地把低價商品排列在搜索和推薦結果的前列以提升成交量,卻忽視了對業務本質的理解——低價雖可刺激購買,卻讓目標用戶群從二三城市轉移到三四線城市。

「雖然 GMV 上去了,但產品的價值都變了」,金榕說道。

業務為技術開路,科學家們卻在無意中篡改了產品的內核,「短板暴露得非常明顯」,金榕談道。當時團隊多為研究背景,精通基礎理論,卻缺少業務理解和工程實踐經驗,所以看不到技術到產品中間的巨大鴻溝。

「你們要想在阿里發揮出真正的價值,就必須克服這些困難」,當時的阿里 COO 張勇找到金榕和幾個骨幹說道。

既然不夠熟悉業務,那就去到第一現場吧!

於是,iDST 的早期科學家們兵分多路,以電商和金融兩大核心業務為首,深入到產品和工程裡。金榕帶著團隊進入到淘寶和天貓的搜索事業部,漆遠和幾位同事去了螞蟻金服,做語音的團隊則留在了阿里雲。後來這被稱為阿里科學家們的「上山下鄉」運動。

技術的覺醒並不止於高層,更早些,一股從下至上的創新力量就竄上了頭,內部創新的文化開始流行——「只要你的老大不反對,就是對你最大的支持」。

2013 年的十一國慶,李昊印象尤其深刻。他沒有旅遊計劃,也不用回老家走街串巷,而是一人悶頭在辦公室裡搗鼓。一連七天,他都在工位上敲打著鍵盤,像是著了魔。

終於,趕在假期結束前,他長舒一口氣——Demo 跑通了,由一塊 GPU 搭上一臺主機,純手寫的用於圖像搜索的深度學習算法。再簡陋不過的裝置,但結果令人欣慰——比傳統算法的準確度有了明顯提升。

正值第三次人工智能浪潮起勢,ImageNet 大賽進入到第三屆,深度學習教父 Geoff Hinton 和他學生設計的 AlexNet 在賽事中大放異彩,基於深度神經網絡的思路一舉解決了圖像分類的棘手難題,至此開啟神經網絡百家爭鳴的盛況,更深、更寬的網絡層出不窮。

李昊從外文網站上讀到這些消息時備受鼓舞,他博士畢業於中科院光電技術研究所,來阿里不到一年,滿腔學以致用的迫切。

揭祕阿里人工智能這五年:天才的野心與自證

李昊,阿里巴巴資深算法專家

早在 2010 年,谷歌豪擲 1 億美金收購圖像購物搜索網站 Like.COM,掀起全球圖像搜索的風口。文字搜索場景有限,圖片描述更為加精確,微軟、亞馬遜、百度紛紛出手,阿里也順勢投資了一家圖蒐購物網站(現名為「淘淘搜」),通過識別圖片上的實體物品來索引網絡上對應的店鋪鏈接。

遺憾的是,隨著移動互聯網時代的到來,圖搜風口很快熄火,手機實拍圖的普及,讓搜索結果越來越不可控,圖搜應用體驗大幅受挫,不少創業公司瀕臨倒閉。

「實拍圖的比對相比 PC 的原圖難得不是一星半點,已經不是傳統圖搜技術能應付過來的」,李昊說道。

既然傳統圖搜技術已經無以為繼,那在視覺領域技驚四座的深度神經網絡能否奏效?為此,李昊花了整個國慶假期來驗證這個想法。

「他很興奮,一直給這個看,給那個看,非常大力地推廣」,李昊回憶起將Demo交給主管時的場景。就這樣,團隊爭取到一次向時任淘寶 CEO 展示的機會,這次是直接在手機端演示——手機拍照,實拍圖和庫裡已有圖片做比對檢索,找到和相似的照片顯示——相比傳統算法提升了一倍。

很快,「圖像搜索」項目在 2014 年正式啟動,目標是落地到手淘(手機淘寶應用)平臺。

剛來阿里三個月的潘攀被任命為負責人,兼顧算法、工程、產品的統籌,團隊力量充沛。潘攀畢業於美國伊利諾伊大學芝加哥分校博士,此前在美國三菱波士頓研究院、北京富士通研發中心從事視覺領域的研發工作。

揭祕阿里人工智能這五年:天才的野心與自證

潘攀,現達摩院視覺智能研究領域 資深算法專家

延續此前團隊推動的技術路徑,「圖搜」採用深度學習技術,隨之成為阿里歷史上最早採用深度學習技術並上線的 C 端應用產品。

和大多數互聯網公司戰略先行的思路不同,阿里在技術探索的早期並沒有大刀闊斧地批項目,而是從現有的核心業務盤子上找切口,剋制而謹慎地實驗性驗證,然後才推動落地。

「當組織裡的算法和研發比較少,更多是由業務和產品構成時,就決定了大家對於技術不確定性的理解會非常有限」,潘攀說道,「對於一家互聯網公司,做項目就一定要做出來,看得到結果」。

這是一個又艱難又幸運的過程,當行動早於認知,缺少資源、無人信任、無法施展等困境便接踵而來,這既是商業公司的盈利性質所決定的,也是新生事物萌芽期所必經的考驗。

但幸運的是,無論是自上而下的理想主義,還是自下而上的創新力量都得以保留,倖免於曇花一現的口號和想法。

火種尚存便可以燎原。

2. 坐在金山上啃饅頭

「坐在金山上啃饅頭」,這是漆遠加入 iDST 時聽馬雲說過的話。金山就是阿里巴巴擁有的豐富數據。但是即便坐擁金山啃饅頭,也難以一口吃成個大胖子,「如果數據的價值不能被挖掘出來,那不過就是普通的土壤」。

隨著深度學習算法與模型的普及應用,「調參」工作成為大部分算法工程師的日常,淘寶和天貓的搜索團隊一開始也不例外。

因為深度學習算法的不可解釋性,很多基於該技術的方案就像是一個「黑盒」,模型中的參數選擇和調整成了一件難捉摸的事,往往意味著繁瑣而毫無頭緒,沒有技術含量。

在漆遠看來,光是調參遠不能建立起技術體系,「雖然屬於工程層面的工作,但仍需要科學的思想指導——最好的工程指導就是科學,否則你就只能是一名調參工程師」。

與漆遠秉持同一觀點的還有金榕。「原來我們都是做些調參工作,直到金榕老師來了之後才把我們帶上正軌」,李昊談道,「他常反問我們,深度學習為什麼能奏效?你能從理論上解釋嗎?」

「圖搜」項目之後,李昊便來到了搜索技術部——阿里最為核心的算法部門之一。在這裡,李昊遇到了前來深入業務第一線的金榕。

李昊當時的主要工作是為深度學習模型進行壓縮與加速優化,一般做法是套用現有模型,但金榕通常會提供新的思路,「他給了我們一堆的公式,讓我們去試」,但這一試就是三個月,也沒出結果。

當李昊和同事懷著忐忑的心情找到金榕,他並沒有因此責備,反而給予鼓勵,「如果三個月就能做出來,那就是太簡單了,繼續去做吧!」直到第四個月算法總算跑通。這套算法將Embedding 技術結合深度學習引入到搜索業務中,明顯提升了淘寶主搜索的 GMV。

李昊回憶,當時金榕還做了一套非常長的理論證明,證明算法是可收斂的,並在內部分享,「他當時給予我們的理論指導,正是我們所稀缺的」,李昊對此十分感激。

來到螞蟻金服的漆遠則接到了智能客服的項目,通過智能交互機器人來解決支付寶的客服問題。這一次,他順利很多,獲得當時集團客戶服務部負責人戴珊的支持後(戴珊是阿里巴巴早期創始的十八羅漢之一),很快爭取到了資金和資源進行技術的驗證。

在阿里科技發展早期,以阿里合夥人為代表,形成了一股來自理想主義的推動力量。

2015 年的雙十一,首次採用深度學習技術的支付寶客服實現了 94% 語音自助,這意味著有 94% 打來的電話不再需要轉接到人工服務,次年,這個數字提升到 97%。去除掉人工智能團隊的人員工資和計算資源成本,智能客服項目為公司節省了一個多億。

所謂「知人善用,人盡其才」,技術工具同樣如此,唯有了解 AI,才能用好 AI。

要在一家互聯網公司裡樹立起對於新技術的認知和信仰並非易事,這為科學家們設置了一道又一道的障礙欄,甚至不可避免地造成了人員流失。

但回過頭來看,或許正是有了「上山下山」的共事經歷,才算是真正打通了「研發」和「業務」的對話體系,讓陽春白雪和下里巴人從此互融。

技術之後,便是產品工程化的進階挑戰。

哪怕有高層支持,也不意味著就此被保駕護航,伴隨而來的反而是更大的壓力。圖搜立項的第一年就設定了明確目標——日活過百萬,「打從立項之初就不再是實驗性的了」。

與初期的深度學習算法探索不同,後期的挑戰就像無底洞一樣填不滿。

「問題的關鍵在於,我們不是在做一個獨立的 APP,而是讓它落在手淘上」,潘攀說道,「而且還是阿里最為核心的業務平臺」。落地手淘,意味著圖搜需要調用手淘的底層接口,需要針對淘寶內部的鏈路架構做額外定製和調配,而淌通這些鏈路就是最大挑戰。

在視覺領域,大規模圖片的壓縮極其消耗算力,這為大規模的圖搜訪問埋下了隱患,一次意外報警讓潘攀記憶猶新。

一天,圖搜的服務器突然被拖垮,後臺出現報警。

經過緊急排查,團隊才發現,原來是淘系後臺針對圖像上傳的默認壓縮功能拖垮了服務器。默認壓縮主要針對低頻、小訪問量的媒體上傳需求,但並沒有考慮到圖搜的特殊情況——數據規模大,且需要實時識別,所以已經在前端預設壓縮功能。換句話說,淘系的圖片默認壓縮對於圖搜反而是一種負擔。

在發生警報之前,大家都忽略了這麼細微的接口。潘攀談道,「很多時候就是這樣,即使我們自己考慮到位了,但如果要連接到更大的系統上,還是會出問題」。

上線並不意味著挑戰結束,比如,還有深不可測的入口。潘攀清楚地記得,圖搜第一次上線的位置是手淘的一個四級菜單裡。「四級」,則意味著你首先要在首頁裡找到「發現」,然後點開「特色服務」,點擊「更多」,再……

作為阿里最為核心的業務戰場,手淘的態度顯而易見——「願意給技術機會,但也要求風險可控」。

機會需要爭取,更需要「自證」其價值。

從最初上線的數千日活,過百萬,過千萬,一直到突破 2000 萬,圖搜應用一路躍升為淘寶首頁導購類目的第一。但與此同時,外界的質疑聲不斷,「我印象特別深,每一年大家都在問,數據還能增長嗎?……你還在做呀?做啥呢?」潘攀說道。

不被理解似乎成為開拓者的宿命,漆遠回憶早期的探索時期,「當時對我最大的鍛鍊就是,不被理解是正常的」。

這或許可以稱之為某種樂觀主義,但毋庸置疑,對於技術的信仰正是面對困境和誤解時不可或缺的堅實力量。

經歷過焦灼而艱難的資源「抗爭」後,漆遠手中的分佈式機器學習平臺終於啟動,為了儘早讓平臺上線,團隊放棄年底休假,春節期間留守奮戰,骨幹密集開會頭腦風暴。「當時切身地感受到了團隊的戰鬥力,大家真的是非常相信,只要上線效果一定能好」,漆遠回憶。

雙十一期間,平臺首次實現淘寶、天貓個性化推薦的大規模應用。那一年的阿里巴巴集團算法大獎上,漆遠帶領 80 人的團隊包攬了 16 項獎中的 6 項。現在,漆遠作為達摩院金融智能方向的負責人,帶領團隊構建面向金融經濟場景的智能分析與決策技術。

另一邊,在經歷了搜索類目擴增、數據優化、算法迭代等多方面的升級後,「圖搜」項目完成三次入口躍遷,終於在 2015 年雙十一期間進入首頁。讓潘攀頗為自豪的是,圖搜的數據一直依靠自然增長,幾乎沒有調用過手淘的商業推廣資源。

入口升級的本質是一個不斷「自證」的過程,由技術和技術背後的推動者們在一次又一次的挑戰中完成,繼而固化下來成為阿里技術產品的迭代傳統。

不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

高速增長的背後是兩年一次的系統大改,「阿里其實非常講究創新,我們一般都不炒冷飯」,潘攀說道,他將圖搜系統的發展分為三個時期,「每一次升級不僅是算法進步,而是整體思路的提升」。

「數據、系統、算法三個互為一體。對數據認知和處理方法的不同視角,催生了與之匹配的算法和工程系統,所以升級是整個系統層面的」。

項目早期,數據量少,還需要人工標註,所以研究為之匹配的小模型的系統和算法;隨後訓練數據解放,團隊嘗試通過用戶行為的三類數據(查詢數據、點擊數據、未點擊數據)分析出數據與排序間的邏輯關係,三元組的 Deep Ranking 框架生成,與之對應的訓練框架、系統升級迭代;去年,圖搜開始接入超大規模並行處理平臺,釋放數十億級數據的訓練能力。

與百度識圖、微信掃一掃、京東拍照購等市面上的其他圖搜應用不同,阿里更強調「通用化」能力,比如不僅能支持手淘所有的實體商品檢索,還包括二維碼、植物、垃圾等非商品的識別與分類。這些功能統統集成在圖搜一個窗口裡,不用再二次跳轉,平均日活達到 2000 萬以上。

在研究員的成長道路上,經歷一次完整的技術工程化落地的意義重大,它不僅錘鍊了實戰能力,更為其提供了深入瞭解業務所想、業務所需的窗口。

「這段經歷讓我們明白了應該創造和推動什麼樣的技術,知道哪些技術更有可能落地成為產品,以及如何讓一個產品能夠有效地支撐業務」,金榕談道。

可以說,從研發到業務的實戰積累正是阿里打造AI 技術落地體系的基石。

如今,這套思想貫徹到阿里大大小小的技術思路中。比如,在語音技術團隊今年推出的語音合成技術 KAN-TTS(Knowledge-Aware Neural TTS)中,團隊就事先考慮到了不同環境下的模型部署環境,並進行框架設計和效率優化,綜合各項需求的關鍵算法改進多達20餘項,最終實現了無論是在雲端還是終端,甚至是 CPU 存儲有限情況下的最快速度部署。

一項技術能否在設計之初就考慮到項目部署階段遇到的各種實際問題,正是技術落地體系成熟的重要標誌。

3. 中國研究院沒有Benchmark

「它是阿里巴巴國際化業務的技術生命線,如果沒有這些能力,阿里巴巴很難稱之為一家國際化公司」,這段底氣十足的話出自司羅。

他是阿里達摩院語言技術實驗室負責人,帶領百餘人的隊伍進行自然語言理解、機器翻譯、認知智能等底層技術的開發,這些技術被譽為人工智能皇冠上的明珠。

揭祕阿里人工智能這五年:天才的野心與自證

司羅,現達摩院語言技術實驗室 負責人

司羅專注於機器學習、NLP 等領域的研究,2012 年成為普渡大學計算機系終身教授後,一舉奠定了其在學術圈的地位。同金榕、漆遠一批,司羅在 2014 年加入 iDST,是阿里建立人工智能技術體系的早期成員。

相較於視覺、語音更貼近前端用戶的技術,語言則更偏向底層,以原子化能力的形式起作用,扮演著賦能和支撐的角色。正因為這個特點,它對於大型互聯網技術公司而言往往不可或缺,但技術團隊卻又是極其分散的。

既然如此,為何不集中力量打通?

於是,語言技術恰好成為了技術平臺化的最佳試驗場。

2016 年 10 月,對於司羅和 NLP 團隊而言是一個重要的時間節點。此前,他們忙於承接一個個「項目」,先後參與過「聚划算」、「AIios」「淘寶頭條」等項目。

在這之後,司羅領到任務——將 NLP 的「大中臺」建立起來,換句話說,阿里各業務線的 NLP 不再各自為營。

為了讓其他業務線接入平臺,司羅採取了「品牌效應」的打法。

是的,在公司內部,同樣需要建立品牌,尤其在打造規模化平臺的過程中。

「首先要有非常貼身的服務,然後讓重點的頭部用戶用起來,逐步地讓他們認識到 NLP 平臺和解決方案的好處,再通過種子用戶將我們的技術價值傳播出去」,司羅知無不言地分享了品牌效應的打造「套路」。

而正是因為技術平臺化的出現,讓這隻百餘人的隊伍能夠支持阿里系 600餘個業務方,每天調用量達到了兩萬億次。

這是 NLP 技術影響力從量變到質變的飛躍。

沿用同樣的思路,司羅帶領的另一條技術分支——機器翻譯技術也實現了規模化的業務支撐能力,為阿里全球化電商平臺上的買賣雙方提供 20 多種語言,48 種語言方向的機器翻譯服務,覆蓋歐洲、亞洲、美洲與中東地區的絕大多數國家。

阿里的圖搜應用在技術平臺化升級後,從最早的支持手淘平臺到目前落地到淘系的六個主流 APP,一舉成為全球最大的圖搜應用系統。「這是淘系業務的市場份額決定的」,潘攀說道。

從單個功能應用,到十個、百個、數百個的業務方支持,每天被億級用戶使用,技術平臺化的戰略得到了有效驗證與認可。尤其對於技術人員而言,通過平臺化的過程,單點技術的影響力不斷被泛化,技術的品牌效應不斷地被放大。

但對於當下的阿里而言,平臺化尚非終點,「上雲」更是一片廣闊的天地。

阿里內部的海量業務和長期實戰的檢驗,為技術與方案移植到阿里雲平臺提供了硬核實力。司羅表示,NLP 平臺和機器翻譯平臺已經先後在阿里雲上的人工智能板塊上線,供第三方的雲計算客戶使用。

從單純的技術算法,到集成為業務和應用中的產品,再到平臺化和大規模可複製化的雲計算商品,這是一條阿里人自己走出來的 AI 落地路。

是時候將這條路子固化下來了!

2017 年 10 月 11 日,是阿里人工智能技術體系開宗明義的日子。

揭祕阿里人工智能這五年:天才的野心與自證

阿里巴巴 CTO 張建鋒宣佈成立達摩院

杭州雲棲大會現場,阿里巴巴 CTO 張建鋒宣佈達摩院正式成立,計劃未來 3 年裡投入超過 1000 億元,用於涵蓋基礎科學和顛覆式技術創新的研究。iDST 作為達摩院旗下最大的機器智能實驗室分支,由金榕任帶隊。

時至今日,再談大公司建立研究院已不是新鮮事,但適應於中國本土市場環境的成功模板仍然寥寥可數。

培養出中國最早一批 AI 研究員的微軟亞洲研究院被冠以「黃埔軍校」之名頻頻提起,投入巨大過於前沿的谷歌 X 實驗室、DeepMind,IBM Waston 研究院形象「高大上」卻不夠接地氣。

中國互聯網公司已經開始重點佈局,但難以與公司業務平起平坐,百度幾大研究體系已被收編進技術平臺,騰訊四大實驗室依附於各大業務呈分散狀。

至於阿里,在達摩院之前的三年探索和走過的彎路為其積累了不少寶貴經驗,但如何乘勝追擊更進一步成為領導者的新命題。

在金榕看來,達摩院的設立主要有兩個目標:一是把達摩院的 AI 基礎能力(原子能力)放到平臺上支撐所有業務。比如阿里內部跟語音識別有關的業務都會使用達摩院的底層語音平臺,但會根據具體業務做定製化的改變。

二是上雲,通過內部核心業務驗證後,用戶的接受度和滿意度達到一定指標,產品上雲商業化,進一步放大價值,服務整個社會。

說到這,四年前王堅為金榕描繪 iDST 藍圖,三句不離「Benchmark」的畫面在我眼前浮現。

「我記得從第一天起,王堅就一直跟我們說 iDST 的 Benchmark 的是什麼?」金榕說道。(Benchmark,基準,常用於性能測試中的表達。)

王堅認為是斯坦福研究院(簡稱 SRI,1970 年脫離斯坦福大學後,更名為「斯坦福國際諮詢研究院」)。「那裡的基礎研究和其他地方都不一樣,不僅創造出了最好的理論知識,還能把技術變成產品,產品收益再反哺到學術」,金榕回憶道,那時常舉的一個例子就是鼠標的發明。

不止於鼠標,從手術機器人到航天靜電放電棒,從個人助理 Siri 再到癌症治療,二戰後的斯坦福研究所幾乎成了硅谷高科技公司科技創新的「智慧之源」,不僅創造了新的行業、數十億美元的市場價值,還有持久的社會價值。

「一旦看到收益,人們很容易就聚焦在收割單個業務的成果上,而缺少更深入挑戰的動力」,金榕認為這也是達摩院——阿里 AI 技術中臺設立的意義——跳出單個業務成果,讓技術更深入,再往前跨一步,用更少的人力實現價值最大化。

經過兩年的建設,達摩院人才濟濟,超過半數科學傢俱有名校博士學位,部分是美國、歐洲學成回國,辦公室分佈在四個國家、八個主要城市,其中機器智能團隊擁有 20 多位知名大學教授,近 10 位 IEEE FELLOW。

而在達摩院之外,阿里還有一些更為分散化、業務化的人工智能能力,並非走中臺化的路子,但仍是不可或缺的一環。比如天貓精靈、搜索和廣告部的人工智能技術應用、螞蟻金服的客服機器人等,它們與核心業務方貼合地更為緊密,以便技術更快地產生效益。

要為這樣一支龐大而高規格的研究團隊設置課題並不是件容易事。

此前,我在與某公司 AI 實驗室負責人交流時,對方就曾透露過選題上的兩難局面——一方面既要兼顧業務需求和 KPI 導向,另一方面還不能忘記前瞻性研究和技術佈局。

整日埋頭對接業務需求容易退化為業務部門的附屬團隊?但面對前沿課題的不確定性,究竟該冒多大的險,才能保證既有結果又具備開創性?

當我將同樣的問題拋給阿里的人工智能科學家時,得到了相似的回答,「這看起來是個問題,但在阿里就不是個問題」。

延續技術到產品、產品再到商業化的研究和落地機制,技術研發與商業利益的問題將得以平衡,而且必須平衡。

「在阿里如果只是發發論文、做做研究則意味著工作只做到了一半,無法獲得真正的認可,或者是比較低的認可」,潘攀說道。

與此同時,在技術平臺化與產品規模化的過程中,還伴隨著水到渠成的技術成果轉化。

在被譽為人工智能世界盃的 CVPR 2019 WebVision 競賽中圖像分類競賽中,阿里以 82.54% 的識別準確率獲得冠軍,而這背後的技術能力正是阿里「圖搜」應用開出的果實。

談到更為宏觀的議題佈局,金榕認為投資者思維或許是一個思路。

作為一名投資人,標的無非兩種,一是比較切實可靠的項目,但是收益比較少;另一種則是高風險,但回報高,即所謂的「High Risk High Take Off」。幾乎所有投資公司的投資組合都是這兩種的混合。

作為研發部門,金榕會將技術資源進行分層。一部分投資在相對較容易見到結果的領域上,具備確定性;還有一部分投入在可長週期回報的項目。「在這樣一個投資組合中,肯定有項目要失敗,但能保證團隊整體的成長和健康」,金榕談道。

正好,他剛帶隊打完了一場「High Risk」的戰役。

那是阿里正在研發的自主雲上人工智能加速芯片 NPU,達摩院承擔了部分算法工作,讓 NPU 在阿里的技術架構上跑出最高性能。

為了能拿到 CTO 的「戰投」,金榕預先設置了一個非常高的指標,即假設所有條件都處於非常理想的條件下,相比 GPU 的性能有了不小的提升。

硬著頭皮上,一年多下來,終於收穫了理想結果。在金榕看來,設定高目標雖然可能會引發焦慮和不適,但高目標的每一次落地都將為團隊實力帶來顯著提升,「這對於打造榮譽感,提振團隊士氣非常奏效」。

在阿里內部有一句話,「最好的團建就是打一場勝仗」,融入阿里文化後的科學家們也開始明白這個道理了。

金榕身上所展現的冒險精神,一部分來自他的個人性格,一部分還受到阿里早期技術氛圍的感染。早年間,王堅力排眾議主導開發阿里雲計算平臺時,就常以一個「瘋子」的形象活躍在公司內部。

「如果你當真要解決難題,就需要調動你所有的膽量和勇氣去接受挑戰」,金榕談道。

在計算機研究領域,通常將非常棘手的問題稱之為「NP-Hard」,大多數研究員一旦碰到這樣的問題都會給出否定的結論。但金榕的團隊所推崇的恰是「Solve The Ban Problem」。

「在商業社會,用戶和商家才不會在乎這個,你不能因為 NP-hard 就止步」,金榕談道,「這對我來講是非常重要的原則,但凡這個研究是能夠產生巨大價值,就應該全身心投入」。

不畏「禁忌」、冒險而大膽——這是我從他人口中未曾聽說過的達摩院。

一脈相承的風格不可避免地將滲透進團隊,一旦拔得頭籌就將能讓每個成員體會到以一當十的驚險,擁有勝者的姿態,繼而發展成為阿里 AI 精神內核的一部分。

當上層建築搭建完整,更為底層的技術正亟待突破,最為核心的指標在於算力。

早年間漆遠接手的首個項目大規模分佈式機器學習平臺,隨後由達摩院智能計算實驗室負責人周靖人帶隊不斷迭代和完善,已經進入到第三代版本 PAI 3.0。今年三月加盟阿里的 AI 知名青年科學家賈揚清還將為 PAI 注入更多力量。

賈揚清畢業於美國加州大學伯克利分校計算機科學博士,加入阿里前在 Facebook 擔任工程總監,負責大規模人工智能平臺的架構。他是 AI 深度學習框架 Caffe、Caffe2、Pytorch 的重要貢獻者之一,並曾參與谷歌人工智能平臺 TensorFlow 的工作,GoogleNet 作者的之一。

因為深度學習框架領域的諸多貢獻,賈揚清在人工智能開發者群體中具有頗高人氣,在今年 7 月的阿里雲峰會上,賈揚清首次以阿里人身份亮相,不斷有年輕人過來和他談話與合影。

揭祕阿里人工智能這五年:天才的野心與自證

賈揚清,現阿里巴巴計算平臺事業部 總裁

正值浙江一帶的酷暑,採訪室十分悶熱。「我是紹興人,沒法抱怨這天氣」,賈揚清笑著說道。清華碩士畢業後,賈揚清就長居海外,因為轉戰阿里而經常回國。紹興距離杭州不到 80 公里,來到阿里,不僅是回國,更是回鄉,賈揚清臉上有些止不住的喜悅。

和賈揚清前後腳來到阿里的還有黃非,在金榕和司羅兩位老師的力薦下加入。黃非畢業於卡內基梅隆大學博士,曾任 ACL、NLPCC 等領域主席、IJCAI 資深程序委員,在 Facebook 時負責機器翻譯和知識平臺。加入阿里後負責組建和領導國際化機器翻譯創新團隊。

一如當年的漆遠、金榕一樣,這些年輕科學家們帶著由衷的使命感和期待來到「金山」,期待著實現自我價值的同時,也為阿里經濟體和中國互聯網做出應有的貢獻。

4. 阿里的底牌

當一件事物愈發完美或者強大,外界在其身上所寄託的期望值也將越來越高。

「最開始,公司只是希望技術能用在業務上得到一個好效果。今天,是真正希望我們能夠用技術創造未來,一個新的由技術驅動的阿里巴巴」,金榕停了一會繼續說道,「這個期望遠高於技術難題,是一個非常大的命題」。

一個技術驅動的阿里巴巴?可能嗎?

在絕大部分人的眼中,對於阿里的定義仍然是一家依靠電商業務驅動的互聯網公司。在 2019 財年的財報裡,阿里的核心業務包括電商業務、阿里雲、大文娛和創新業務四大板塊,其重要性依次排開。其中,電商業務創造了 3234 億收入,總營收佔比高達 86%。

「這正是外界看不太懂的地方,我們可不可能創造未來?」

在金榕眼裡,這個未來似乎已經依稀可見,「我給你舉個例子,至少我自己是非常受激勵的,5G 技術就是突破口之一。隨著 5G 和高清視頻技術的發展,整個視頻內容產業鏈都會帶來全新的變化,是對每一個環節的重塑……」

AI 之後,5G 之前,前瞻性的技術佈局和技術融合或將為阿里踩準下一個時代節點。

讓我們把時間線拉近一些,現在或者近期的幾年內,在阿里的主營業務之下,還有什麼能稱之為源動力或者底牌的東西?


揭祕阿里人工智能這五年:天才的野心與自證


歐文武,阿里巴巴資深算法專家

眼前這位入職阿里 12 年的算法專家或許知道答案。

他叫歐文武,娃娃臉上時常掛著微笑,憨態可掬。他被視為「最懂中國女人的男人」,因為他好像總能猜到你想買點什麼,然後在恰當的時候送到你眼皮底下。

歐文武是阿里巴巴搜索事業部總監,資深算法專家,負責淘寶推薦算法團隊,利用搜索和推薦技術讓電商產品推薦流,也就是人們常說的「千人千面」。

談到推薦業務,賈揚清曾在他的內部分享《關於人工智能的一點淺見》中這樣描述:在阿里和很多互聯網企業中有一個「沉默的大多數」的應用,就是推薦系統:它常常佔據了超過 80% 甚至 90% 的機器學習算力,如何將深度學習和傳統推薦系統進一步整合,如何尋找新的模型,如何對搜索和推薦的效果建模,這些可能沒有像語音和圖像那麼為人所知,卻是公司不可缺少的技能。

在阿里就有兩支重要團隊負責這個「沉默的大多數」的應用——搜索事業部與阿里媽媽。

雖然都做推薦系統,技術與平臺相通,但和阿里媽媽強調變現的屬性不同,搜索事業部的推薦業務更看重用戶體驗,強調探索和發現的樂趣以增加平臺粘性,商業味道更淡薄。

而這看似的放手實則意味深長。

在 2018 年 Q3 財報會議前夕,阿里巴巴董事會臨時做出了一個反常決定——短期內不對推薦推送等廣告庫存增量進行貨幣化。簡言之就是停止對淘系平臺上的個性化推薦的規模商業化。

隨後的財報會議上,高盛銀行、匯豐銀行、花旗銀行的分析師們對該決定窮追不捨地發問,商業化時間點、利潤率、廣告創收等被反覆提及,可見其分量和位置。但高管們仍守口如瓶。

「千人千面」正是這塊「暫時未被商業化」業務背後的核心技術力量,它被視為「阿里的底牌」,是阿里基於技術驅動業務的核心體現,有望成為驅動阿里未來營收增長的新引擎。

在電商業務的轉型期,推薦流業務蘊藏著極大的價值潛力。隨著平臺上的商品越來越多,對所有用戶採用同一套搜索算法,已經不能再滿足用戶的多樣化需求。垂直電商領域新型競爭對手的出現也倒逼著阿里對推薦業務進行更深入的探索。

「它不僅僅展示了流量的增長,更體現出轉化率的增長」,阿里巴巴集團 CFO 武衛說道,「推薦流為商家創造的價值,與淘寶在 10 年或 15 年所帶來的流量和交易價值並不是一回事,這背後還有消費者參與的價值。該模式為商家提供了操盤工具,能夠親手來運營和管理他們的用戶群體」。

極大的價值潛力,同時也意味著極大的業務挑戰。

光是在工程層面要應付大規模數據就是一個難題。一般地,T 級(1 Tera Byte(TB)= 1024 GB)已經是相當大體量的數據存儲單位,但在歐文武部門,每天面對的是上升了三個數量級以後的 P 級(1 Peta Byte(PB) = 1024 TB)數據。

「這麼大量的數據,數據處理的方法,計算數據的準確性和一致性都是挑戰」,他說道。

目前淘寶和天貓平臺有 7 億多用戶,每個用戶在平臺上留下的行為特點、訴求方向都極其分散,即重疊的數據很少,體現在技術層面就是數據的稀疏性,這對算法模型的體量和複雜程度提出了更高要求。

阿里內部有個說法,推薦部門的算法是阿里最難進的算法崗位。在招人方面,歐文武表示,他更傾向於應屆生,團隊目前 50 人左右,博士生 40%,清華北大畢業的將近一半。

團隊維持在每年兩到三次大規模升級的節奏,「大升級就是以前那套全推翻,重建一套」,歐文武說道,小規模的升級,比如加些新特徵,改改模型等,則頻率高很多。

阿里每個財年都會依據各部門制定相關 KPI,歐文武並沒有透露具體的 KPI。但他會在公司的KPI基礎上給團隊開個小灶,制定一套「內部 KPI」——比公司的要高出不少。

他通常會逐一拆分成許多個小目標,有人做用戶數據,有人做匹配,有人做個性化排序……大概 20 多個小目標同時推進。

歐文武將其比喻成造車,車體需要拆分成很多零部件,大問題也要拆分成子問題,這樣每個子問題就能更準確地評價,依據每個小問題再設定成不同的目標,然後拼湊在一起以求大目標可控。

目標要可控,但算法講究靈活。

和一般算法追求極致的精準性不同,推薦的算法還需要投其所好,新穎性和多樣性都是歐文武團隊要考慮的維度。

以前,傳統推薦算法主要是通過歷史日誌訓練模型,缺少對用戶未知需求的探索,十分有限;技術迭代後,現在多采用演化算法、強化學習算法、非傳統的 AI 算法等多種算法融合,以求解決一個多目標平衡的問題。

當算法推薦不再侷限於財務指標,歐文武希望建立一個與用戶共同成長的 Life-Long 式模式。在歐文武看來,當下的推薦,停留在用戶單次訪問時長和瀏覽深度的指標優化;而更長遠來看,用戶能否留存才是關鍵。

「滿意度不止在短期,而是長期的滿足和收穫。比如在購買之後,商品的安裝、使用、保養……全鏈路的購物體驗都可以做」,歐文武說道。

參照線下的傳統購買場景,推薦的角色將不再侷限於一名「導購員」,因為用戶觸達商品的每一個階段都在發生改變,推薦的內涵也正在從商品推薦擴寬消費推薦,這也正是「李佳琦賣口紅」效應興起的邏輯。

據阿里員工透露,推薦算法目前在關鍵指標數據上有超過搜索的趨勢,未來潛力可觀。正如騰訊在微信廣場實驗廣告位的價值,在推薦機制下,廣告除了帶來交易的價值,還有品牌展示和市場推廣等更多元的價值。

「我們在這個方面仍然很剋制,希望保持可持續性的增長」,歐文武說道,「不能用今天透支未來」。

在電商業務之後,雲計算業務已經上升到集團的主要營收的第二位,阿里雲智能總裁張建鋒在今年提出了「ALL in Cloud」的戰略。依託於雲計算平臺,阿里搭建了 AI 技術向 B 端產業賦能的各級大腦模塊,比如已經成長為國家級人工智能開放創新平臺的城市大腦。

城市大腦是阿里第一個「原生於雲場景」的重點業務,它完全構建在雲上,打破了攝像頭與紅綠燈的割裂,讓攝像頭看到的數據,告訴紅綠燈應該如何優化,從而實現大規模實時交通事故檢測。

3 年多以來,阿里的城市大腦走出杭州,在北京(西城、通州)、上海、蘇州、澳門、吉隆坡等境內外十幾個城市落地。據城市大腦的技術負責人——達摩院高級研究員華先勝透露,平均一個星期的時間,城市大腦就可完成一個城市的技術部署。


"
揭祕阿里人工智能這五年:天才的野心與自證

採訪 | 四月

撰文 | 四月

過去五年,阿里在全球人工智能的激烈賽道上悄然跑進了第一梯隊,背後一群以達摩院稱號對外示人的科學家群體愈發神祕撩人。

這是一群野心勃勃的科學家,親手打破旁人豔羨的舒適區,踏入充滿禁忌的未知地,只為尋覓更廣闊的舞臺。他們一生都致力「求證」,或於學術理論,或於技術價值,並願意承擔隨之而來的冒險和境遇窘迫。

這五年,阿里經歷了人工智能技術長征的發端與突圍,而他們,也經歷了一場巨大的冒險與自證。

初見之時,你或許會訝異他們滔滔不絕地談起「買單」、「落地」、「規模化」等商業味濃厚的字眼,全然沒了學究氣,仿若一位身居一線的創業者心心念念……

直到你聽說過那段既艱難又幸運的歲月,一切便了然於心——唯有越瞭解真相,才會變得越務實。

人生的絕妙之處也在於此,改變他們的不是早年風光的求學路,也並非當下所擁有的物質地位,而是源於一次又一次被質疑和誤解後的絕地「自證」——不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要拿出實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

強壓之下的「自證」氛圍造就了科學家們近乎苛刻現實的技術價值觀。

待繁務卸下,他們重拾赤子之心,沉浸於算法公式和理論推理的樂趣。但人生並不總有自由浪漫的時刻,更漫長的是披荊斬棘的孤獨與煎熬。

通過和近十位阿里巴巴人工智能科學家的對話與交流,本文試圖還原阿里打造人工智能技術體系的荊棘路,以及路途中科學家們的內心征途。

1 . 既艱難又幸運

多年以後,遇上北京的霧霾天,漆遠沒準依然會想起那個加班的春節——西大望路的阿里媽媽會議室裡,一桌人戴著口罩開著會,工位上的空氣淨化器呼呼作響,窗外是望不到對面樓的霧霾天。

回國前,漆遠已經在腦海中羅列過一連串的適應清單,以備回國後的各種挑戰,而「迷霧危機」大概是被遺漏的最重要的一條,它不僅來自於北京的天氣,還包括那個大膽的決定。

漆遠曾走過一條無數理工男夢想的坦途:31 歲麻省理工大學博士畢業,39 歲成為一流大學終身教授,定居美國,擁有寬敞明亮的實驗室和獨棟別墅,一位美麗的太太以及兩個可愛的孩子,一年兩次固定的長假足以讓他兼顧工作和生活的完美平衡。

直到一次大膽的決定,漆遠親手打破了這種平衡。在拒絕谷歌、Facebook、百度等公司的邀約後,漆遠決定歸國到杭州工作,選擇了當時看起來「最沒有技術範兒」的阿里。

2014 年 9 月 19 日,時任阿里巴巴合夥人的王堅帶著漆遠來到紐交所,共同見證了阿里巴巴的上市,7 位敲鐘人全是阿里電商的買家和賣家,卻沒有一位是科學家。

面向華爾街,這家彼時市值 2400 億美金的公司並不滿足被定義為一家「電商公司」。他正在謀劃一個嶄新而宏偉的「想象力故事」,以便讓公司在未來獲得更強勁的增長動力。

他明白,前沿技術會是這個故事的主角,緊接著 iDST(數據科學與技術研究院 Institute of Data Science & Technologies)宣佈成立,漆遠和金榕成為早期創始人。

但彼時彼地,故事聽起來不免有些冒險主義——中國互聯網市場仍處在模式創新的初級階段,一家以商業利益為本的企業憑什麼打造技術驅動的研究院?國內幾乎沒有任何成功的營運模式可以參考。

未知的挑戰首先降臨到了早期創始人和研究機制身上。

揭祕阿里人工智能這五年:天才的野心與自證

漆遠,現達摩院金融智能實驗室 負責人

加入阿里後,漆遠接到的首個任務是打造一套大規模機器學習平臺,落地到淘寶的廣告平臺阿里媽媽。他清楚地記得,當時手裡攥著兩千萬特徵,14 天的數據。由於數據量太少,他計劃積累到半年數據後再啟動。

同時,他還提交了一份申請數千臺服務器的計劃。這並不是一筆小數目,直到現在一塊英偉達的計算卡仍然要價 2000 美金,計劃討論後就被否決了。

等了半年,服務器仍沒有撥下來,巧婦也難為無米之炊。「當時沒有 CPU 集群,整個集團都沒有」,漆遠說道,「同事們認為,『你們這幫教授老師過來,基本不懂業務,也不懂技術』」。

秀才遇到兵,有理說不清。漆遠的團隊陷入了不能「自證」的悖論裡:沒有 CPU 集群,如何證明自己的算法和技術高效?不能證明自己的算法和技術高效,如何爭取到 CPU 集群?

漆遠曾試圖據理力爭,僵持狀態幾近半年,「團隊一度走在解散的邊緣」。

金榕是 iDST 的另一位創始人,美國密歇根州立大學終身教授,曾獲得過美國國家科學基金會獎(漆遠也獲得過該獎)——有超過 200 位諾貝爾獎得主都獲得過這個獎金的資助。

揭祕阿里人工智能這五年:天才的野心與自證

金榕,現達摩院機器智能研究領域 負責人

金榕帶領團隊為「聚划算」提供流量分發的技術優化,團隊很自然地把低價商品排列在搜索和推薦結果的前列以提升成交量,卻忽視了對業務本質的理解——低價雖可刺激購買,卻讓目標用戶群從二三城市轉移到三四線城市。

「雖然 GMV 上去了,但產品的價值都變了」,金榕說道。

業務為技術開路,科學家們卻在無意中篡改了產品的內核,「短板暴露得非常明顯」,金榕談道。當時團隊多為研究背景,精通基礎理論,卻缺少業務理解和工程實踐經驗,所以看不到技術到產品中間的巨大鴻溝。

「你們要想在阿里發揮出真正的價值,就必須克服這些困難」,當時的阿里 COO 張勇找到金榕和幾個骨幹說道。

既然不夠熟悉業務,那就去到第一現場吧!

於是,iDST 的早期科學家們兵分多路,以電商和金融兩大核心業務為首,深入到產品和工程裡。金榕帶著團隊進入到淘寶和天貓的搜索事業部,漆遠和幾位同事去了螞蟻金服,做語音的團隊則留在了阿里雲。後來這被稱為阿里科學家們的「上山下鄉」運動。

技術的覺醒並不止於高層,更早些,一股從下至上的創新力量就竄上了頭,內部創新的文化開始流行——「只要你的老大不反對,就是對你最大的支持」。

2013 年的十一國慶,李昊印象尤其深刻。他沒有旅遊計劃,也不用回老家走街串巷,而是一人悶頭在辦公室裡搗鼓。一連七天,他都在工位上敲打著鍵盤,像是著了魔。

終於,趕在假期結束前,他長舒一口氣——Demo 跑通了,由一塊 GPU 搭上一臺主機,純手寫的用於圖像搜索的深度學習算法。再簡陋不過的裝置,但結果令人欣慰——比傳統算法的準確度有了明顯提升。

正值第三次人工智能浪潮起勢,ImageNet 大賽進入到第三屆,深度學習教父 Geoff Hinton 和他學生設計的 AlexNet 在賽事中大放異彩,基於深度神經網絡的思路一舉解決了圖像分類的棘手難題,至此開啟神經網絡百家爭鳴的盛況,更深、更寬的網絡層出不窮。

李昊從外文網站上讀到這些消息時備受鼓舞,他博士畢業於中科院光電技術研究所,來阿里不到一年,滿腔學以致用的迫切。

揭祕阿里人工智能這五年:天才的野心與自證

李昊,阿里巴巴資深算法專家

早在 2010 年,谷歌豪擲 1 億美金收購圖像購物搜索網站 Like.COM,掀起全球圖像搜索的風口。文字搜索場景有限,圖片描述更為加精確,微軟、亞馬遜、百度紛紛出手,阿里也順勢投資了一家圖蒐購物網站(現名為「淘淘搜」),通過識別圖片上的實體物品來索引網絡上對應的店鋪鏈接。

遺憾的是,隨著移動互聯網時代的到來,圖搜風口很快熄火,手機實拍圖的普及,讓搜索結果越來越不可控,圖搜應用體驗大幅受挫,不少創業公司瀕臨倒閉。

「實拍圖的比對相比 PC 的原圖難得不是一星半點,已經不是傳統圖搜技術能應付過來的」,李昊說道。

既然傳統圖搜技術已經無以為繼,那在視覺領域技驚四座的深度神經網絡能否奏效?為此,李昊花了整個國慶假期來驗證這個想法。

「他很興奮,一直給這個看,給那個看,非常大力地推廣」,李昊回憶起將Demo交給主管時的場景。就這樣,團隊爭取到一次向時任淘寶 CEO 展示的機會,這次是直接在手機端演示——手機拍照,實拍圖和庫裡已有圖片做比對檢索,找到和相似的照片顯示——相比傳統算法提升了一倍。

很快,「圖像搜索」項目在 2014 年正式啟動,目標是落地到手淘(手機淘寶應用)平臺。

剛來阿里三個月的潘攀被任命為負責人,兼顧算法、工程、產品的統籌,團隊力量充沛。潘攀畢業於美國伊利諾伊大學芝加哥分校博士,此前在美國三菱波士頓研究院、北京富士通研發中心從事視覺領域的研發工作。

揭祕阿里人工智能這五年:天才的野心與自證

潘攀,現達摩院視覺智能研究領域 資深算法專家

延續此前團隊推動的技術路徑,「圖搜」採用深度學習技術,隨之成為阿里歷史上最早採用深度學習技術並上線的 C 端應用產品。

和大多數互聯網公司戰略先行的思路不同,阿里在技術探索的早期並沒有大刀闊斧地批項目,而是從現有的核心業務盤子上找切口,剋制而謹慎地實驗性驗證,然後才推動落地。

「當組織裡的算法和研發比較少,更多是由業務和產品構成時,就決定了大家對於技術不確定性的理解會非常有限」,潘攀說道,「對於一家互聯網公司,做項目就一定要做出來,看得到結果」。

這是一個又艱難又幸運的過程,當行動早於認知,缺少資源、無人信任、無法施展等困境便接踵而來,這既是商業公司的盈利性質所決定的,也是新生事物萌芽期所必經的考驗。

但幸運的是,無論是自上而下的理想主義,還是自下而上的創新力量都得以保留,倖免於曇花一現的口號和想法。

火種尚存便可以燎原。

2. 坐在金山上啃饅頭

「坐在金山上啃饅頭」,這是漆遠加入 iDST 時聽馬雲說過的話。金山就是阿里巴巴擁有的豐富數據。但是即便坐擁金山啃饅頭,也難以一口吃成個大胖子,「如果數據的價值不能被挖掘出來,那不過就是普通的土壤」。

隨著深度學習算法與模型的普及應用,「調參」工作成為大部分算法工程師的日常,淘寶和天貓的搜索團隊一開始也不例外。

因為深度學習算法的不可解釋性,很多基於該技術的方案就像是一個「黑盒」,模型中的參數選擇和調整成了一件難捉摸的事,往往意味著繁瑣而毫無頭緒,沒有技術含量。

在漆遠看來,光是調參遠不能建立起技術體系,「雖然屬於工程層面的工作,但仍需要科學的思想指導——最好的工程指導就是科學,否則你就只能是一名調參工程師」。

與漆遠秉持同一觀點的還有金榕。「原來我們都是做些調參工作,直到金榕老師來了之後才把我們帶上正軌」,李昊談道,「他常反問我們,深度學習為什麼能奏效?你能從理論上解釋嗎?」

「圖搜」項目之後,李昊便來到了搜索技術部——阿里最為核心的算法部門之一。在這裡,李昊遇到了前來深入業務第一線的金榕。

李昊當時的主要工作是為深度學習模型進行壓縮與加速優化,一般做法是套用現有模型,但金榕通常會提供新的思路,「他給了我們一堆的公式,讓我們去試」,但這一試就是三個月,也沒出結果。

當李昊和同事懷著忐忑的心情找到金榕,他並沒有因此責備,反而給予鼓勵,「如果三個月就能做出來,那就是太簡單了,繼續去做吧!」直到第四個月算法總算跑通。這套算法將Embedding 技術結合深度學習引入到搜索業務中,明顯提升了淘寶主搜索的 GMV。

李昊回憶,當時金榕還做了一套非常長的理論證明,證明算法是可收斂的,並在內部分享,「他當時給予我們的理論指導,正是我們所稀缺的」,李昊對此十分感激。

來到螞蟻金服的漆遠則接到了智能客服的項目,通過智能交互機器人來解決支付寶的客服問題。這一次,他順利很多,獲得當時集團客戶服務部負責人戴珊的支持後(戴珊是阿里巴巴早期創始的十八羅漢之一),很快爭取到了資金和資源進行技術的驗證。

在阿里科技發展早期,以阿里合夥人為代表,形成了一股來自理想主義的推動力量。

2015 年的雙十一,首次採用深度學習技術的支付寶客服實現了 94% 語音自助,這意味著有 94% 打來的電話不再需要轉接到人工服務,次年,這個數字提升到 97%。去除掉人工智能團隊的人員工資和計算資源成本,智能客服項目為公司節省了一個多億。

所謂「知人善用,人盡其才」,技術工具同樣如此,唯有了解 AI,才能用好 AI。

要在一家互聯網公司裡樹立起對於新技術的認知和信仰並非易事,這為科學家們設置了一道又一道的障礙欄,甚至不可避免地造成了人員流失。

但回過頭來看,或許正是有了「上山下山」的共事經歷,才算是真正打通了「研發」和「業務」的對話體系,讓陽春白雪和下里巴人從此互融。

技術之後,便是產品工程化的進階挑戰。

哪怕有高層支持,也不意味著就此被保駕護航,伴隨而來的反而是更大的壓力。圖搜立項的第一年就設定了明確目標——日活過百萬,「打從立項之初就不再是實驗性的了」。

與初期的深度學習算法探索不同,後期的挑戰就像無底洞一樣填不滿。

「問題的關鍵在於,我們不是在做一個獨立的 APP,而是讓它落在手淘上」,潘攀說道,「而且還是阿里最為核心的業務平臺」。落地手淘,意味著圖搜需要調用手淘的底層接口,需要針對淘寶內部的鏈路架構做額外定製和調配,而淌通這些鏈路就是最大挑戰。

在視覺領域,大規模圖片的壓縮極其消耗算力,這為大規模的圖搜訪問埋下了隱患,一次意外報警讓潘攀記憶猶新。

一天,圖搜的服務器突然被拖垮,後臺出現報警。

經過緊急排查,團隊才發現,原來是淘系後臺針對圖像上傳的默認壓縮功能拖垮了服務器。默認壓縮主要針對低頻、小訪問量的媒體上傳需求,但並沒有考慮到圖搜的特殊情況——數據規模大,且需要實時識別,所以已經在前端預設壓縮功能。換句話說,淘系的圖片默認壓縮對於圖搜反而是一種負擔。

在發生警報之前,大家都忽略了這麼細微的接口。潘攀談道,「很多時候就是這樣,即使我們自己考慮到位了,但如果要連接到更大的系統上,還是會出問題」。

上線並不意味著挑戰結束,比如,還有深不可測的入口。潘攀清楚地記得,圖搜第一次上線的位置是手淘的一個四級菜單裡。「四級」,則意味著你首先要在首頁裡找到「發現」,然後點開「特色服務」,點擊「更多」,再……

作為阿里最為核心的業務戰場,手淘的態度顯而易見——「願意給技術機會,但也要求風險可控」。

機會需要爭取,更需要「自證」其價值。

從最初上線的數千日活,過百萬,過千萬,一直到突破 2000 萬,圖搜應用一路躍升為淘寶首頁導購類目的第一。但與此同時,外界的質疑聲不斷,「我印象特別深,每一年大家都在問,數據還能增長嗎?……你還在做呀?做啥呢?」潘攀說道。

不被理解似乎成為開拓者的宿命,漆遠回憶早期的探索時期,「當時對我最大的鍛鍊就是,不被理解是正常的」。

這或許可以稱之為某種樂觀主義,但毋庸置疑,對於技術的信仰正是面對困境和誤解時不可或缺的堅實力量。

經歷過焦灼而艱難的資源「抗爭」後,漆遠手中的分佈式機器學習平臺終於啟動,為了儘早讓平臺上線,團隊放棄年底休假,春節期間留守奮戰,骨幹密集開會頭腦風暴。「當時切身地感受到了團隊的戰鬥力,大家真的是非常相信,只要上線效果一定能好」,漆遠回憶。

雙十一期間,平臺首次實現淘寶、天貓個性化推薦的大規模應用。那一年的阿里巴巴集團算法大獎上,漆遠帶領 80 人的團隊包攬了 16 項獎中的 6 項。現在,漆遠作為達摩院金融智能方向的負責人,帶領團隊構建面向金融經濟場景的智能分析與決策技術。

另一邊,在經歷了搜索類目擴增、數據優化、算法迭代等多方面的升級後,「圖搜」項目完成三次入口躍遷,終於在 2015 年雙十一期間進入首頁。讓潘攀頗為自豪的是,圖搜的數據一直依靠自然增長,幾乎沒有調用過手淘的商業推廣資源。

入口升級的本質是一個不斷「自證」的過程,由技術和技術背後的推動者們在一次又一次的挑戰中完成,繼而固化下來成為阿里技術產品的迭代傳統。

不同於象牙塔裡、試驗檯前的公示推理和仿真驗證,商業場上的「自證」需要實實在在的業務指標和實際效果,正如阿里辦公區裡那句隨處可見的標語——「NO DATA,NO BB」。

高速增長的背後是兩年一次的系統大改,「阿里其實非常講究創新,我們一般都不炒冷飯」,潘攀說道,他將圖搜系統的發展分為三個時期,「每一次升級不僅是算法進步,而是整體思路的提升」。

「數據、系統、算法三個互為一體。對數據認知和處理方法的不同視角,催生了與之匹配的算法和工程系統,所以升級是整個系統層面的」。

項目早期,數據量少,還需要人工標註,所以研究為之匹配的小模型的系統和算法;隨後訓練數據解放,團隊嘗試通過用戶行為的三類數據(查詢數據、點擊數據、未點擊數據)分析出數據與排序間的邏輯關係,三元組的 Deep Ranking 框架生成,與之對應的訓練框架、系統升級迭代;去年,圖搜開始接入超大規模並行處理平臺,釋放數十億級數據的訓練能力。

與百度識圖、微信掃一掃、京東拍照購等市面上的其他圖搜應用不同,阿里更強調「通用化」能力,比如不僅能支持手淘所有的實體商品檢索,還包括二維碼、植物、垃圾等非商品的識別與分類。這些功能統統集成在圖搜一個窗口裡,不用再二次跳轉,平均日活達到 2000 萬以上。

在研究員的成長道路上,經歷一次完整的技術工程化落地的意義重大,它不僅錘鍊了實戰能力,更為其提供了深入瞭解業務所想、業務所需的窗口。

「這段經歷讓我們明白了應該創造和推動什麼樣的技術,知道哪些技術更有可能落地成為產品,以及如何讓一個產品能夠有效地支撐業務」,金榕談道。

可以說,從研發到業務的實戰積累正是阿里打造AI 技術落地體系的基石。

如今,這套思想貫徹到阿里大大小小的技術思路中。比如,在語音技術團隊今年推出的語音合成技術 KAN-TTS(Knowledge-Aware Neural TTS)中,團隊就事先考慮到了不同環境下的模型部署環境,並進行框架設計和效率優化,綜合各項需求的關鍵算法改進多達20餘項,最終實現了無論是在雲端還是終端,甚至是 CPU 存儲有限情況下的最快速度部署。

一項技術能否在設計之初就考慮到項目部署階段遇到的各種實際問題,正是技術落地體系成熟的重要標誌。

3. 中國研究院沒有Benchmark

「它是阿里巴巴國際化業務的技術生命線,如果沒有這些能力,阿里巴巴很難稱之為一家國際化公司」,這段底氣十足的話出自司羅。

他是阿里達摩院語言技術實驗室負責人,帶領百餘人的隊伍進行自然語言理解、機器翻譯、認知智能等底層技術的開發,這些技術被譽為人工智能皇冠上的明珠。

揭祕阿里人工智能這五年:天才的野心與自證

司羅,現達摩院語言技術實驗室 負責人

司羅專注於機器學習、NLP 等領域的研究,2012 年成為普渡大學計算機系終身教授後,一舉奠定了其在學術圈的地位。同金榕、漆遠一批,司羅在 2014 年加入 iDST,是阿里建立人工智能技術體系的早期成員。

相較於視覺、語音更貼近前端用戶的技術,語言則更偏向底層,以原子化能力的形式起作用,扮演著賦能和支撐的角色。正因為這個特點,它對於大型互聯網技術公司而言往往不可或缺,但技術團隊卻又是極其分散的。

既然如此,為何不集中力量打通?

於是,語言技術恰好成為了技術平臺化的最佳試驗場。

2016 年 10 月,對於司羅和 NLP 團隊而言是一個重要的時間節點。此前,他們忙於承接一個個「項目」,先後參與過「聚划算」、「AIios」「淘寶頭條」等項目。

在這之後,司羅領到任務——將 NLP 的「大中臺」建立起來,換句話說,阿里各業務線的 NLP 不再各自為營。

為了讓其他業務線接入平臺,司羅採取了「品牌效應」的打法。

是的,在公司內部,同樣需要建立品牌,尤其在打造規模化平臺的過程中。

「首先要有非常貼身的服務,然後讓重點的頭部用戶用起來,逐步地讓他們認識到 NLP 平臺和解決方案的好處,再通過種子用戶將我們的技術價值傳播出去」,司羅知無不言地分享了品牌效應的打造「套路」。

而正是因為技術平臺化的出現,讓這隻百餘人的隊伍能夠支持阿里系 600餘個業務方,每天調用量達到了兩萬億次。

這是 NLP 技術影響力從量變到質變的飛躍。

沿用同樣的思路,司羅帶領的另一條技術分支——機器翻譯技術也實現了規模化的業務支撐能力,為阿里全球化電商平臺上的買賣雙方提供 20 多種語言,48 種語言方向的機器翻譯服務,覆蓋歐洲、亞洲、美洲與中東地區的絕大多數國家。

阿里的圖搜應用在技術平臺化升級後,從最早的支持手淘平臺到目前落地到淘系的六個主流 APP,一舉成為全球最大的圖搜應用系統。「這是淘系業務的市場份額決定的」,潘攀說道。

從單個功能應用,到十個、百個、數百個的業務方支持,每天被億級用戶使用,技術平臺化的戰略得到了有效驗證與認可。尤其對於技術人員而言,通過平臺化的過程,單點技術的影響力不斷被泛化,技術的品牌效應不斷地被放大。

但對於當下的阿里而言,平臺化尚非終點,「上雲」更是一片廣闊的天地。

阿里內部的海量業務和長期實戰的檢驗,為技術與方案移植到阿里雲平臺提供了硬核實力。司羅表示,NLP 平臺和機器翻譯平臺已經先後在阿里雲上的人工智能板塊上線,供第三方的雲計算客戶使用。

從單純的技術算法,到集成為業務和應用中的產品,再到平臺化和大規模可複製化的雲計算商品,這是一條阿里人自己走出來的 AI 落地路。

是時候將這條路子固化下來了!

2017 年 10 月 11 日,是阿里人工智能技術體系開宗明義的日子。

揭祕阿里人工智能這五年:天才的野心與自證

阿里巴巴 CTO 張建鋒宣佈成立達摩院

杭州雲棲大會現場,阿里巴巴 CTO 張建鋒宣佈達摩院正式成立,計劃未來 3 年裡投入超過 1000 億元,用於涵蓋基礎科學和顛覆式技術創新的研究。iDST 作為達摩院旗下最大的機器智能實驗室分支,由金榕任帶隊。

時至今日,再談大公司建立研究院已不是新鮮事,但適應於中國本土市場環境的成功模板仍然寥寥可數。

培養出中國最早一批 AI 研究員的微軟亞洲研究院被冠以「黃埔軍校」之名頻頻提起,投入巨大過於前沿的谷歌 X 實驗室、DeepMind,IBM Waston 研究院形象「高大上」卻不夠接地氣。

中國互聯網公司已經開始重點佈局,但難以與公司業務平起平坐,百度幾大研究體系已被收編進技術平臺,騰訊四大實驗室依附於各大業務呈分散狀。

至於阿里,在達摩院之前的三年探索和走過的彎路為其積累了不少寶貴經驗,但如何乘勝追擊更進一步成為領導者的新命題。

在金榕看來,達摩院的設立主要有兩個目標:一是把達摩院的 AI 基礎能力(原子能力)放到平臺上支撐所有業務。比如阿里內部跟語音識別有關的業務都會使用達摩院的底層語音平臺,但會根據具體業務做定製化的改變。

二是上雲,通過內部核心業務驗證後,用戶的接受度和滿意度達到一定指標,產品上雲商業化,進一步放大價值,服務整個社會。

說到這,四年前王堅為金榕描繪 iDST 藍圖,三句不離「Benchmark」的畫面在我眼前浮現。

「我記得從第一天起,王堅就一直跟我們說 iDST 的 Benchmark 的是什麼?」金榕說道。(Benchmark,基準,常用於性能測試中的表達。)

王堅認為是斯坦福研究院(簡稱 SRI,1970 年脫離斯坦福大學後,更名為「斯坦福國際諮詢研究院」)。「那裡的基礎研究和其他地方都不一樣,不僅創造出了最好的理論知識,還能把技術變成產品,產品收益再反哺到學術」,金榕回憶道,那時常舉的一個例子就是鼠標的發明。

不止於鼠標,從手術機器人到航天靜電放電棒,從個人助理 Siri 再到癌症治療,二戰後的斯坦福研究所幾乎成了硅谷高科技公司科技創新的「智慧之源」,不僅創造了新的行業、數十億美元的市場價值,還有持久的社會價值。

「一旦看到收益,人們很容易就聚焦在收割單個業務的成果上,而缺少更深入挑戰的動力」,金榕認為這也是達摩院——阿里 AI 技術中臺設立的意義——跳出單個業務成果,讓技術更深入,再往前跨一步,用更少的人力實現價值最大化。

經過兩年的建設,達摩院人才濟濟,超過半數科學傢俱有名校博士學位,部分是美國、歐洲學成回國,辦公室分佈在四個國家、八個主要城市,其中機器智能團隊擁有 20 多位知名大學教授,近 10 位 IEEE FELLOW。

而在達摩院之外,阿里還有一些更為分散化、業務化的人工智能能力,並非走中臺化的路子,但仍是不可或缺的一環。比如天貓精靈、搜索和廣告部的人工智能技術應用、螞蟻金服的客服機器人等,它們與核心業務方貼合地更為緊密,以便技術更快地產生效益。

要為這樣一支龐大而高規格的研究團隊設置課題並不是件容易事。

此前,我在與某公司 AI 實驗室負責人交流時,對方就曾透露過選題上的兩難局面——一方面既要兼顧業務需求和 KPI 導向,另一方面還不能忘記前瞻性研究和技術佈局。

整日埋頭對接業務需求容易退化為業務部門的附屬團隊?但面對前沿課題的不確定性,究竟該冒多大的險,才能保證既有結果又具備開創性?

當我將同樣的問題拋給阿里的人工智能科學家時,得到了相似的回答,「這看起來是個問題,但在阿里就不是個問題」。

延續技術到產品、產品再到商業化的研究和落地機制,技術研發與商業利益的問題將得以平衡,而且必須平衡。

「在阿里如果只是發發論文、做做研究則意味著工作只做到了一半,無法獲得真正的認可,或者是比較低的認可」,潘攀說道。

與此同時,在技術平臺化與產品規模化的過程中,還伴隨著水到渠成的技術成果轉化。

在被譽為人工智能世界盃的 CVPR 2019 WebVision 競賽中圖像分類競賽中,阿里以 82.54% 的識別準確率獲得冠軍,而這背後的技術能力正是阿里「圖搜」應用開出的果實。

談到更為宏觀的議題佈局,金榕認為投資者思維或許是一個思路。

作為一名投資人,標的無非兩種,一是比較切實可靠的項目,但是收益比較少;另一種則是高風險,但回報高,即所謂的「High Risk High Take Off」。幾乎所有投資公司的投資組合都是這兩種的混合。

作為研發部門,金榕會將技術資源進行分層。一部分投資在相對較容易見到結果的領域上,具備確定性;還有一部分投入在可長週期回報的項目。「在這樣一個投資組合中,肯定有項目要失敗,但能保證團隊整體的成長和健康」,金榕談道。

正好,他剛帶隊打完了一場「High Risk」的戰役。

那是阿里正在研發的自主雲上人工智能加速芯片 NPU,達摩院承擔了部分算法工作,讓 NPU 在阿里的技術架構上跑出最高性能。

為了能拿到 CTO 的「戰投」,金榕預先設置了一個非常高的指標,即假設所有條件都處於非常理想的條件下,相比 GPU 的性能有了不小的提升。

硬著頭皮上,一年多下來,終於收穫了理想結果。在金榕看來,設定高目標雖然可能會引發焦慮和不適,但高目標的每一次落地都將為團隊實力帶來顯著提升,「這對於打造榮譽感,提振團隊士氣非常奏效」。

在阿里內部有一句話,「最好的團建就是打一場勝仗」,融入阿里文化後的科學家們也開始明白這個道理了。

金榕身上所展現的冒險精神,一部分來自他的個人性格,一部分還受到阿里早期技術氛圍的感染。早年間,王堅力排眾議主導開發阿里雲計算平臺時,就常以一個「瘋子」的形象活躍在公司內部。

「如果你當真要解決難題,就需要調動你所有的膽量和勇氣去接受挑戰」,金榕談道。

在計算機研究領域,通常將非常棘手的問題稱之為「NP-Hard」,大多數研究員一旦碰到這樣的問題都會給出否定的結論。但金榕的團隊所推崇的恰是「Solve The Ban Problem」。

「在商業社會,用戶和商家才不會在乎這個,你不能因為 NP-hard 就止步」,金榕談道,「這對我來講是非常重要的原則,但凡這個研究是能夠產生巨大價值,就應該全身心投入」。

不畏「禁忌」、冒險而大膽——這是我從他人口中未曾聽說過的達摩院。

一脈相承的風格不可避免地將滲透進團隊,一旦拔得頭籌就將能讓每個成員體會到以一當十的驚險,擁有勝者的姿態,繼而發展成為阿里 AI 精神內核的一部分。

當上層建築搭建完整,更為底層的技術正亟待突破,最為核心的指標在於算力。

早年間漆遠接手的首個項目大規模分佈式機器學習平臺,隨後由達摩院智能計算實驗室負責人周靖人帶隊不斷迭代和完善,已經進入到第三代版本 PAI 3.0。今年三月加盟阿里的 AI 知名青年科學家賈揚清還將為 PAI 注入更多力量。

賈揚清畢業於美國加州大學伯克利分校計算機科學博士,加入阿里前在 Facebook 擔任工程總監,負責大規模人工智能平臺的架構。他是 AI 深度學習框架 Caffe、Caffe2、Pytorch 的重要貢獻者之一,並曾參與谷歌人工智能平臺 TensorFlow 的工作,GoogleNet 作者的之一。

因為深度學習框架領域的諸多貢獻,賈揚清在人工智能開發者群體中具有頗高人氣,在今年 7 月的阿里雲峰會上,賈揚清首次以阿里人身份亮相,不斷有年輕人過來和他談話與合影。

揭祕阿里人工智能這五年:天才的野心與自證

賈揚清,現阿里巴巴計算平臺事業部 總裁

正值浙江一帶的酷暑,採訪室十分悶熱。「我是紹興人,沒法抱怨這天氣」,賈揚清笑著說道。清華碩士畢業後,賈揚清就長居海外,因為轉戰阿里而經常回國。紹興距離杭州不到 80 公里,來到阿里,不僅是回國,更是回鄉,賈揚清臉上有些止不住的喜悅。

和賈揚清前後腳來到阿里的還有黃非,在金榕和司羅兩位老師的力薦下加入。黃非畢業於卡內基梅隆大學博士,曾任 ACL、NLPCC 等領域主席、IJCAI 資深程序委員,在 Facebook 時負責機器翻譯和知識平臺。加入阿里後負責組建和領導國際化機器翻譯創新團隊。

一如當年的漆遠、金榕一樣,這些年輕科學家們帶著由衷的使命感和期待來到「金山」,期待著實現自我價值的同時,也為阿里經濟體和中國互聯網做出應有的貢獻。

4. 阿里的底牌

當一件事物愈發完美或者強大,外界在其身上所寄託的期望值也將越來越高。

「最開始,公司只是希望技術能用在業務上得到一個好效果。今天,是真正希望我們能夠用技術創造未來,一個新的由技術驅動的阿里巴巴」,金榕停了一會繼續說道,「這個期望遠高於技術難題,是一個非常大的命題」。

一個技術驅動的阿里巴巴?可能嗎?

在絕大部分人的眼中,對於阿里的定義仍然是一家依靠電商業務驅動的互聯網公司。在 2019 財年的財報裡,阿里的核心業務包括電商業務、阿里雲、大文娛和創新業務四大板塊,其重要性依次排開。其中,電商業務創造了 3234 億收入,總營收佔比高達 86%。

「這正是外界看不太懂的地方,我們可不可能創造未來?」

在金榕眼裡,這個未來似乎已經依稀可見,「我給你舉個例子,至少我自己是非常受激勵的,5G 技術就是突破口之一。隨著 5G 和高清視頻技術的發展,整個視頻內容產業鏈都會帶來全新的變化,是對每一個環節的重塑……」

AI 之後,5G 之前,前瞻性的技術佈局和技術融合或將為阿里踩準下一個時代節點。

讓我們把時間線拉近一些,現在或者近期的幾年內,在阿里的主營業務之下,還有什麼能稱之為源動力或者底牌的東西?


揭祕阿里人工智能這五年:天才的野心與自證


歐文武,阿里巴巴資深算法專家

眼前這位入職阿里 12 年的算法專家或許知道答案。

他叫歐文武,娃娃臉上時常掛著微笑,憨態可掬。他被視為「最懂中國女人的男人」,因為他好像總能猜到你想買點什麼,然後在恰當的時候送到你眼皮底下。

歐文武是阿里巴巴搜索事業部總監,資深算法專家,負責淘寶推薦算法團隊,利用搜索和推薦技術讓電商產品推薦流,也就是人們常說的「千人千面」。

談到推薦業務,賈揚清曾在他的內部分享《關於人工智能的一點淺見》中這樣描述:在阿里和很多互聯網企業中有一個「沉默的大多數」的應用,就是推薦系統:它常常佔據了超過 80% 甚至 90% 的機器學習算力,如何將深度學習和傳統推薦系統進一步整合,如何尋找新的模型,如何對搜索和推薦的效果建模,這些可能沒有像語音和圖像那麼為人所知,卻是公司不可缺少的技能。

在阿里就有兩支重要團隊負責這個「沉默的大多數」的應用——搜索事業部與阿里媽媽。

雖然都做推薦系統,技術與平臺相通,但和阿里媽媽強調變現的屬性不同,搜索事業部的推薦業務更看重用戶體驗,強調探索和發現的樂趣以增加平臺粘性,商業味道更淡薄。

而這看似的放手實則意味深長。

在 2018 年 Q3 財報會議前夕,阿里巴巴董事會臨時做出了一個反常決定——短期內不對推薦推送等廣告庫存增量進行貨幣化。簡言之就是停止對淘系平臺上的個性化推薦的規模商業化。

隨後的財報會議上,高盛銀行、匯豐銀行、花旗銀行的分析師們對該決定窮追不捨地發問,商業化時間點、利潤率、廣告創收等被反覆提及,可見其分量和位置。但高管們仍守口如瓶。

「千人千面」正是這塊「暫時未被商業化」業務背後的核心技術力量,它被視為「阿里的底牌」,是阿里基於技術驅動業務的核心體現,有望成為驅動阿里未來營收增長的新引擎。

在電商業務的轉型期,推薦流業務蘊藏著極大的價值潛力。隨著平臺上的商品越來越多,對所有用戶採用同一套搜索算法,已經不能再滿足用戶的多樣化需求。垂直電商領域新型競爭對手的出現也倒逼著阿里對推薦業務進行更深入的探索。

「它不僅僅展示了流量的增長,更體現出轉化率的增長」,阿里巴巴集團 CFO 武衛說道,「推薦流為商家創造的價值,與淘寶在 10 年或 15 年所帶來的流量和交易價值並不是一回事,這背後還有消費者參與的價值。該模式為商家提供了操盤工具,能夠親手來運營和管理他們的用戶群體」。

極大的價值潛力,同時也意味著極大的業務挑戰。

光是在工程層面要應付大規模數據就是一個難題。一般地,T 級(1 Tera Byte(TB)= 1024 GB)已經是相當大體量的數據存儲單位,但在歐文武部門,每天面對的是上升了三個數量級以後的 P 級(1 Peta Byte(PB) = 1024 TB)數據。

「這麼大量的數據,數據處理的方法,計算數據的準確性和一致性都是挑戰」,他說道。

目前淘寶和天貓平臺有 7 億多用戶,每個用戶在平臺上留下的行為特點、訴求方向都極其分散,即重疊的數據很少,體現在技術層面就是數據的稀疏性,這對算法模型的體量和複雜程度提出了更高要求。

阿里內部有個說法,推薦部門的算法是阿里最難進的算法崗位。在招人方面,歐文武表示,他更傾向於應屆生,團隊目前 50 人左右,博士生 40%,清華北大畢業的將近一半。

團隊維持在每年兩到三次大規模升級的節奏,「大升級就是以前那套全推翻,重建一套」,歐文武說道,小規模的升級,比如加些新特徵,改改模型等,則頻率高很多。

阿里每個財年都會依據各部門制定相關 KPI,歐文武並沒有透露具體的 KPI。但他會在公司的KPI基礎上給團隊開個小灶,制定一套「內部 KPI」——比公司的要高出不少。

他通常會逐一拆分成許多個小目標,有人做用戶數據,有人做匹配,有人做個性化排序……大概 20 多個小目標同時推進。

歐文武將其比喻成造車,車體需要拆分成很多零部件,大問題也要拆分成子問題,這樣每個子問題就能更準確地評價,依據每個小問題再設定成不同的目標,然後拼湊在一起以求大目標可控。

目標要可控,但算法講究靈活。

和一般算法追求極致的精準性不同,推薦的算法還需要投其所好,新穎性和多樣性都是歐文武團隊要考慮的維度。

以前,傳統推薦算法主要是通過歷史日誌訓練模型,缺少對用戶未知需求的探索,十分有限;技術迭代後,現在多采用演化算法、強化學習算法、非傳統的 AI 算法等多種算法融合,以求解決一個多目標平衡的問題。

當算法推薦不再侷限於財務指標,歐文武希望建立一個與用戶共同成長的 Life-Long 式模式。在歐文武看來,當下的推薦,停留在用戶單次訪問時長和瀏覽深度的指標優化;而更長遠來看,用戶能否留存才是關鍵。

「滿意度不止在短期,而是長期的滿足和收穫。比如在購買之後,商品的安裝、使用、保養……全鏈路的購物體驗都可以做」,歐文武說道。

參照線下的傳統購買場景,推薦的角色將不再侷限於一名「導購員」,因為用戶觸達商品的每一個階段都在發生改變,推薦的內涵也正在從商品推薦擴寬消費推薦,這也正是「李佳琦賣口紅」效應興起的邏輯。

據阿里員工透露,推薦算法目前在關鍵指標數據上有超過搜索的趨勢,未來潛力可觀。正如騰訊在微信廣場實驗廣告位的價值,在推薦機制下,廣告除了帶來交易的價值,還有品牌展示和市場推廣等更多元的價值。

「我們在這個方面仍然很剋制,希望保持可持續性的增長」,歐文武說道,「不能用今天透支未來」。

在電商業務之後,雲計算業務已經上升到集團的主要營收的第二位,阿里雲智能總裁張建鋒在今年提出了「ALL in Cloud」的戰略。依託於雲計算平臺,阿里搭建了 AI 技術向 B 端產業賦能的各級大腦模塊,比如已經成長為國家級人工智能開放創新平臺的城市大腦。

城市大腦是阿里第一個「原生於雲場景」的重點業務,它完全構建在雲上,打破了攝像頭與紅綠燈的割裂,讓攝像頭看到的數據,告訴紅綠燈應該如何優化,從而實現大規模實時交通事故檢測。

3 年多以來,阿里的城市大腦走出杭州,在北京(西城、通州)、上海、蘇州、澳門、吉隆坡等境內外十幾個城市落地。據城市大腦的技術負責人——達摩院高級研究員華先勝透露,平均一個星期的時間,城市大腦就可完成一個城市的技術部署。


揭祕阿里人工智能這五年:天才的野心與自證


華先勝,達摩院城市大腦實驗室 負責人

而在計算層,「新一代計算引擎」已經成為支撐起阿里千億成交額、每秒數萬筆交易的核心底層技術,MaxCompute(離線計算)、Flink(實時計算)、PAI(人工智能)被視為這項技術背後的「三駕馬車」。

賈揚清領導的阿里雲智能計算平臺事業部,主要負責大數據計算和人工智能平臺。對於將大數據和人工智能兩大平臺打通這件事,賈揚清深有感觸,「這樣的融合很具有前瞻性,阿里是全球少數的幾個把大數據和人工智能放在一起的部門。未來大數據和人工智能未來的結合將越來越緊密。」

在談到與達摩院的合作時,他將其比喻成「我們都是『躺平了』來支持」。

所謂計算平臺,要義之一,則是解決算力瓶頸。

這也是阿里的新一代神經網絡芯片 NPU 的設計初衷,在賈揚清看來,通過更底層的技術探索更大的計算潛力,切口在於「解耦」。

雖然谷歌用 TPU & TensorFlow 證明了硬件與框架融合模式的算力無窮,但別忘了還有英偉達——沒有框架,仍然成為了王者——背後的心法就在於「解耦」——解開硬件與框架綁定的枷鎖。

「解耦」的關鍵在於定義模型並讓其標準化,這需要下溯到編譯器層面。

「編譯器的優化不僅能夠挖掘出現有硬件平臺的更強算力,還將在新硬件平臺上基於機器學習自動迭代,大大縮短人力優化軟件的時間」,而這也正是賈揚清加入阿里後的目標所指。

當更深、更強、更底層的算力挖掘成為全球人工智能市場的主旋律,阿里 AI 迎來了「算法+芯片」的AI2.0時代:先後投資寒武紀、耐能等 AI 芯片團隊,收購中天微、先聲互聯等芯片標的,成立「平頭哥」芯片公司。

目前,阿里已經發布基於 RSIC-V 架構的智能 IoT 芯片玄鐵,AI 語音 FPGA 芯片 Ouroboros設計,基於雲端的神經網絡芯片「Ali-NPU」也已經在路上。它們標誌著阿里 AI 技術「從軟到硬」的深化,也預示著 AI 將更為長久地驅動著阿里經濟體成長。


「因為業務需要發展,原來很多技術精力都聚焦在業務上,直到有一天,我們會非常迫切地希望,從技術出發,用科技來驅動業務,然後培育出一些全新的業務」,蔣國飛聊起螞蟻金服的技術發展路線時說道。

他是達摩院金融科技研究領域負責人,同時也是螞蟻金服副總裁。對照阿里巴巴,他認為,「阿里體量更大,所以已經走到了前頭」。

當技術晉升為一家互聯網公司的必需品時,打造行之有效的研發體系則是不可迴避的議題。

研究院或者實驗室等機構的設定本取自於學院體系,外殼借用倒是無妨,但如果連內核和運營模式也一同照搬到商業場,很大的概率就是水土不服止於襁褓。

在外殼之下,研究的機制、團隊的建設、不同對話體系的打通、技術與業務的平衡,前瞻性與KPI的融合…才是商業公司研發體系的靈魂,一切尚需從長計議。

從2014年設立阿里最神祕部門iDST到如今人才濟濟的達摩院,阿里人工智能走過了既艱難又幸運的五年,梳理出這套技術體系的機制和脈絡得以看清阿里人工智能的底色,推而廣之,或將成為互聯網公司打造人工智能技術體系的方法。

"

相關推薦

推薦中...