百度王海峰Quora精華整理:未來5-10年,NLP領域將會有什麼進展?

百度王海峰Quora精華整理:未來5-10年,NLP領域將會有什麼進展?

雷鋒網按:近日吳恩達發文將在4月底離職百度。幾乎在同一時間,百度也宣佈進一步深度整合,將包括NLP、KG、IDL、Speech、Big Data等在內的百度核心技術,組成百度AI技術平臺體系(AIG),並任命百度副總裁王海峰為AI技術平臺體系(AIG)總負責人,同時晉升為Estaff成員,轉向百度集團總裁和首席運營官陸奇彙報。

王海峰是自然語言處理領域的權威科學家,是該領域最具影響力的國際學術組織ACL 50多年曆史上唯一出任主席(President)的華人,同時也是截至目前最年輕的ACL Fellow,也是唯一來自中國大陸的ACL Fellow。此外,王海峰博士還是中文信息學會理事、中文信息學報編委、中國計算機學會(CCF)高級會員、國家自然科學基金委員項目評審會評審專家組成員。此前,雷鋒網也整理過王海峰博士在AAAI2017上的演講《深度 | 百度副總裁王海峰:百度在NLP領域都做了什麼?》。

王海峰博士出席的媒體活動不多,但在Quora上比較活躍。雷鋒網根據王海峰博士在Quora上的五個精華問答整理成本文。

1、從一名科學家轉變為一個IT公司的總裁,你如何看待這種職業變化?

我對技術感到著迷,並樂於沉浸在研究工作裡。我始終相信,科技能夠改變世界。百度為我提供了一個理想的平臺,在這裡我從事的技術工作可以快速直接地讓用戶受益。這就是我一開始加入百度的原因。在百度最初的幾年時間裡,我領導了NLP、語音、圖像、數據挖掘、知識圖譜、機器學習、深度學習等多個團隊。後來,我意識到偉大的產品將會連接技術與廣大用戶,反過來也會更加促進技術進步。偉大的產品,不僅需要先進的技術,還需要傑出的設計、優秀的營銷和高效管理。因此我漸漸改變了自身的角色,從一個單純的研發團隊負責人,轉變為管理層的一員。我如今領導的團隊有3000多人,包括技術、產品和營銷成員,他們都很年輕、精力充沛、富有激情。我們擁有著一個共同目標:用技術和產品改變大眾日常生活。

當掌管一個大型商業團隊的時候,我需要首先制定策略和目標,然後建立一個合適的執行團隊。對於一個大型團隊來說,良好的規則和文化,開始成為支撐和保證業務運行的重要因素。與此同時,對於科技領域的重大突破、用戶需求的演變,以及整個社會的發展趨勢,我都保持極大的關注。

2、未來5-10年,NLP領域將會有什麼進展?

機器翻譯、語義理解、問答和對話技術將會有重大突破。這些技術將會被廣泛應用,並最終改變人與計算機、人與各種硬件設備、以及人與人之間的溝通方式。

這些技術的發展將得益於以下四個領域的發展:大數據、學習機制、知識圖譜、推理和規劃

大數據。隨著互聯網的繁榮,數據量和種類都在高速增長。即便是非常傳統的商業領域,都在開始把數據放到網上。一切都在網上進行,一切都在互聯。大數據的價值將繼續在物聯網領域增長。

學習機制。學習機制的發展將會持續進行,這使得我們能從大數據中學習更多的東西。

知識圖譜。通過大數據和更多強大的學習機制,我們可以打造更大的知識圖譜,來對整個世界進行建模。

推理和規劃。通過大型知識圖譜,我們可以在推理和規劃領域取得突破。推理和規劃的能力將會把更多智能注入NLP系統中。

3、在NLP領域,中文和英文的主要區別是什麼?

從語言學上來說, 中文與英文有很大不同。中文書面文本單詞之間是沒有空間的,中文的語法關係是通過單詞的順序來表達的。這些因素增加了中文在詞彙、語法和語義層次上的模糊性,因為現代語言概念和原則更適用於英文,而非中文。

目前,主流NLP方法都是語言無關性(language-independent)的。這些統計學或神經網絡算法,根據不同的應用,都更進一步優化了特定語言 。

比如,在2015年5月,百度發佈了第一個大型在線神經機器翻譯系統。基礎的NMT模型就是語言無關的,並輸出了非常好的翻譯結果。為了進一步改善翻譯性能,我們使用特定語言特徵優化了翻譯系統。

4、NLP技術如何應用於百度產品裡?

在百度,我們開發出很多NLP技術,包括知識圖譜、語義理解、內容標註、情感分析、生成、摘要、問答、機器翻譯和對話系統等等。這些技術已經應用於許多百度的產品裡,比如搜索、新聞流(news feed)和智能助理,每天為數億用戶服務。我們將以上這些技術通通整合進一個名為NLP Cloud的平臺中。

NLP Cloud提供20多種NLP模塊和方案,服務於百度產品。我們的NLP Cloud服務每天被調用1千多億次。

以搜索為例,典型的NLP模塊,比如切詞、命名實體識別、語法分析、釋義都是基本特徵。這些模塊一直在持續優化並取得突破。另一個典型的NLP技術應用案例就是問答系統。一個高性能的問答系統需要對查詢語句進行精準的語義分析,構建覆蓋面廣的知識圖譜,同時對網頁搜索結果進行全面分析。當用戶在搜索框輸入查詢語句時,搜索引擎能夠立馬提供答案。很多用戶也使用搜索引擎來查詢相關性高的信息,幫助做決策。這種情況下,情感分析(也稱觀點挖掘)技術可以幫助提取多種備選觀點,並將聚合的信息提供給用戶。

另一個案例就是新聞流,這個領域文章質量是極其重要的。NLP技術可以幫助檢測各種垃圾文章,比如謠言、抄襲等等;而文本分析技術可以幫助識別高質量文章,並生成最能夠描述該文章的標籤。此外,從不同維度描述用戶偏好的“用戶模型”也十分依賴於NLP技術。

總而言之,在所有跟自然語言相關的產品裡,NLP技術都是不可或缺的

5、在未來10年,搜索引擎將會如何演變?

今天當我們談及搜索引擎的時候,首先想到的就是搜索框和搜索結果。而未來的搜索引擎將會是什麼樣子呢?我們並沒有確切答案。但是我們樂於擁有更強大的搜索引擎,讓我們在不同的場景、不同的產品或不同的交互界面裡,能夠看見、聽見和感受到。搜索,將會無處不在

第一點,更深入理解用戶的意圖、更深入理解內容,並將兩者更精準地進行匹配,這將會使搜索引擎更為強大。用戶的意圖理解並不是依賴於單一查詢語句,也還依賴於更廣泛的搜索語境,包括查詢session、時間、地點、設備以及用戶性格特徵。另一方面,內容理解涉及的範圍也非常廣,需要更好地理解每一部分內容的語義、語境、觀點,以及從內容中提取的知識。意圖與內容的匹配,將會涉及到以上提到的所有因素,使得在任何一個特定語境下,為每一個查詢提供最好的結果。此外,搜索引擎將會變得更像一個“回答引擎”和“執行引擎”。大部分用戶的查詢,將會得到直接的回答或執行。

第二點,搜索交互界面將會發生很多新變化。除了鍵盤以外,其它輸入方式,比如聲音和圖像,將會越來越廣泛地使用。伴隨更實際的語音和圖像等技術,用戶會十分青睞高效和便利的多模式搜索。特別地,自然語言交互將會成為搜索引擎的主流交互方式。用戶可以跟搜索引擎“對話”,告訴它自己想要什麼,這絕對比現有的鍵盤輸入文字查詢要方便和自然的多。用戶也可以跟搜索引擎進行多輪對話交互。百度搜索已經率先應用了這類新型交互方式,提升用戶體驗。

第三點,搜索將會超越現有的搜索引擎的範圍。搜索會嵌入各種產品當中。比如,搜索會是AI硬件產品的基本特徵之一。未來,搜索將會包圍在我們身邊,無處無在。相應地, 我們也將重新定義什麼是可以被搜索的。除了現有的被索引的內容,在未來,服務、物品、設備和數據都可以被索引,變得可搜索。

很長時間以來,搜索引擎在人們日常生活中扮演至關重要的角色。人們的需求決定了搜索引擎演變的方向,而技術進步則決定了這種演變將走向多遠。

相關推薦

推薦中...