緊跟著微軟的步伐,北京時間凌晨,Google 召開了今年的 I/O 大會。和微軟的 Build 大會類似,Google I/O 也是一個開發者大會,在大會的主題演講中,Google 也會例常得發佈一些新東西。
最近幾年,Google 在 AI 領域內取得了不少驚豔的成果。在硬件方面,他們研發出了 TPU,在處理 AI 計算時,他能夠爆發出相當強勁的性能。TPU 向 Google 提供了其他公司難以企及的超強算力,Google AI 的飛速進步和與其基礎設施的強悍是密不可分的。
在軟件方面,去年 I/O 大會上的電話 AI 系統 Duplex 給筆者帶來了極大的震撼,它合成出來的語音相當自然,通話的對方並不能察覺到自己是在和機器對話,而且在整個對話的流程中,Duplex 的響應非常流暢。
Duplex 背後是 Google 近兩年大力投入 AI 研究後研發出來的一些「精華技術」,例如合成語音時所用的 WaveNet。這些技術實際上很早就有 Demo 了,只是在當時這些技術 Demo 並沒有引起很廣泛地關注。
Duplex 這套系統的誕生代表著 Google 已經擁有了將前沿 AI 技術沉澱、消化,將其綜合起來轉化為實際應用的能力。
今年的 Google I/O 大會上,AI 仍然是主要內容。近幾年 Google 對 AI 是越發地看重,在決定由「Mobile First」轉向「AI First」後,每年 Google 在 AI 領域的投入都在加大。
在 I/O 19 的開場,會場大屏幕上打出了「Keep making magic」(持續創造魔法)這樣的 Slogan。
在深度學習技術流行後,很多原本計算機所不能實現的功能、只存在於幻想或科幻電影中的功能正在被實現、正在變成現實,給人的感覺就像是夢幻的魔法一樣。計算機開始有了「認知能力」,在現有 AI 技術的加持下,計算機開始能夠識別多樣化的場景、開始能夠理解語言、開始能夠和人進行智能的交流。
目前我們所看到的各類 AI 應用僅僅只是 AI 技術發展初期的產物,在 AI 這條路上,科技巨頭們還有很長的路要走,Google 通過這一開場傳達了他們將繼續致力於 AI 研究並持續嘗試用 AI 改善生活的理念。
Google 在這一次 I/O 大會上拿出來的新東西都很貼近普通用戶,而微軟在 Build 大會上拿出來的新東西有很多更貼近企業和開發者。這種差異的存在主要是因為微軟主打的 Azure 以及 Azure AI 本身就是面向企業提供,而 Google AI 則主要服務於使用 Google 系產品的普通用戶。
和微軟情況不同,目前 Google 的搜索引擎仍然是 Google 的一大支柱,所以在 I/O 開始時,Google 就先介紹了他們對搜索引擎做出的一些改良。
在搜索引擎中,Google 添加了對 3D 模型查看的支持,比如你在搜索引擎中搜索新百倫的運動鞋,在搜索結果中你可以通過「View in 3D」這個新的選項查看它的 3D 模型。
這項新功能的應用面很廣,它可以用於讓商家全方位無死角地展示自己的產品,也可以用在教育領域,讓學生通過帶有動畫 3D 模型更進一步地理解專業知識。
3D 模型的顯示與查看是支持 AR 的,你可以直接將這個模型的顯示疊加到現實的場景上,例如 Google 在現場演示的「近距離觀察動物」。
這個演示過程中有一個點很有意思,這個白鯊的模型從演示開始到結束都很穩定,沒有出現什麼明顯的抖動、位移、縮放。對於 AR 應用來說,想要讓 AR 中的 3D 模型保持如此穩定的狀態並不是一件簡單的事情,模型的穩定是 Google 技術實力的一個非常好的體現。
說到 AR,在後續 Google 展示了更多基於 Google Lens 的 AR 應用,例如在一個飯店中,你使用 Google Lens 對準飯店的菜單,它會為你自動框選出推薦菜品。
通過手機屏幕。你可以非常直觀地看到這家店有哪些菜是受食客歡迎的、是時下流行的。
你可以直接在界面中呼出子界面,查看相關菜品的圖片,這可以說是非常智能了。
類似地,你也可以用 Google Lens 去拍攝一張小票,Google Lens 會自動對畫面內的小票進行識別,並自動為你計算出你該付的小費。在有小費文化的美國,這一功能可以說是相當實用的。
當然,Google Lens 也支持通過 AR 在靜態內容的基礎上為你展現動態內容,例如你用 Google Lens 對準一個食譜,它可以在食譜上自動為你播放這道菜的製作流程。
類似地,這一功能也可以擴展到報紙、雜誌等等,其發展空間是非常大的。
在翻譯上,Google Lens 現在可以做到直接在現有畫面的基礎上直接疊加格式類似地、翻譯好的文字,雖然看上去會還是會有一些不太和諧,但是相較於國內一些 App 只能提取文本,然後在 App 頁面內顯示翻譯結果來說,這樣的功能顯然是實用不少。
當然,它也支持直接朗讀畫面上的文字或對畫面上的文字進行實時的搜索。
這項技術有 AI 在背後做支撐,值得一提的是,得益於 Google 在近一年中對 AI 模型優化的努力,其背後的這一套 AI 模型被壓縮到了 100KB,這意味著它可以直接利用手機本地的算力在任意手機上直接運行。
類似地,Google Assistant 語音處理部分的 AI 模型也得到了優化,這一模型直接被優化到了 500MB,這意味著它完全可以運行在用戶的手機上。
原先你的輸入需要在 Google 數據中心進行處理,現在得益於模型的優化,這一部分數據處理將轉移到你自己的手機上。
這能極大地提升 Google Assistant 的響應速度,它可以直接在本地完成識別這一操作,不再需要將錄音傳至雲端,並等待雲端回傳結果。根據 Google 在大會上的說法,這項優化可以讓 Google Assistant 的響應速度提升整整 10 倍。
這一項優化在短期內將會讓 Google Assistant 和其他廠商的語音助手拉開不小的差距,因為其他廠商的語音助手都要依賴網絡,其響應速度不可能會快於優化過的 Google Assistant。
響應速度的提升能夠讓 Google Assistant 在短時間內對用戶發出的一串不連續的指令做出高速的響應,例如你可以對它說「回覆短信,內容是:xxxxx,將我最近在黃石公園拍攝的一張動物照片發送給他」,得益於其在響應速度上的優化,這一系列指令能夠得到快速、高效的執行。
在執行這一長串不連續指令時,用戶並不需要反覆觸發喚醒詞,這極大地提升了語音人機交互的體驗。
在新的 Google Assistant 中,AI 可以理解你的「人際關係」,Google 稱其為「Personal Reference」。
舉個例子,AI 在分析人類語言的時候,如果它遇到了「mom's house」(媽媽的住所)、「mom's birthday」(媽媽的生日)這樣的短語時,AI 沒有辦法去理解它,因為 AI 並不知道其中的「mom」指代的是什麼,而它又關聯到了哪些信息。
在 Personal Reference 的加持下,它能夠理解這些詞語指代的是什麼,並且給出準確的迴應。
Personal Reference 並不侷限於理解你的人際關係,它還能夠理解你的日程等等。
基於這類更高級的語音交互界面,Google Assistant 將會為用戶提供一個對駕駛十分友好且安全的「駕駛模式」。
在司機駕駛的過程中駕駛模式會主要通過語音來和司機進行交互,這樣司機並不用分心去操作手機上的圖形界面,他們的視線不會離開道路。
Google Assistant 會自動為你進行導航、獲取周邊的信息,同時它還能根據你的需求播放你想要的電臺、音樂,對於打進的電話,它也可以完全用語音來與你進行交互。
這個駕駛模式雖然看起來很簡單,但實際上其內容很豐富。它之所以看起來簡單是因為很多圖形交互界面已經被 Google 轉化成了語音交互界面,而且 Google Assistant 的高度智能化能夠讓這一駕駛模式只在界面上顯示必要的信息,簡單實際上是界面上信息冗餘的減少。
在大會上,Google 在去年 Duplex 理念的基礎上開發了「Duplex on the Web」。這是一項用於網頁的 Duplex,它和去年的電話 AI 一樣主要是減少用戶預訂服務時的麻煩。
Google 提到在網頁上預訂一些服務的時候,我們可能需要填寫非常複雜的表單,這些表單往往是個人信息以及預訂服務的相關信息。Duplex on the Web 能夠直接為你完成這些複雜的表單填寫,用智能將用戶體驗優化到極致。
對於習慣性使用網頁來預訂一些服務的用戶來說,這個功能是特別實用的。
得益於 AI 模型的優化,現在語音轉錄文字的 AI 模型也能夠直接運行在本地,運行在每一個用戶的手機上。
它能夠為聽障人士實時轉錄周圍人說的話,也能夠在視頻播放或直播等場景下實時地生成字幕。由於這一功能已經不再依賴網絡,所以其運行速度、響應速度都非常快,可以說幾乎是實時的。
這一技術不但能夠對我們這些普通人的生活帶來影響,它還能夠給世界各地的殘障人士帶來巨大的福音。
在這方面,Google 還運用 AI 技術做了一個特別的「語音轉錄」,它面向那些因為患有 ALS 而說話困難的人提供,由於他們的發音很模糊,幾乎沒有人能夠聽懂他們在說什麼,所以在生活中他們會遇到不小的障礙。
Google 通過機器學習試圖讓這些模糊的聲音轉化成表意清晰的文字,使其能夠被其他人理解。除此之外,Google 還運用了對錶情識別等技術來幫助一些情況更嚴重的患者去他人進行溝通。
相較於去年的 Google I/O 大會,今年 Google 展示的這些 AI 技術都非常貼近用戶、非常貼近生活,這些新功能、新技術在上線後將真實地為用戶帶來便利。
反觀國內不少互聯網公司,他們所提到的 AI 往往都只浮於表面,它們要麼只是一個很簡單的功能實現,但在宣傳上卻被吹得天花亂墜,要麼這些所謂的 AI 只是運行公司的內部,和我們實際的使用體驗關係不大。
這些 AI 並不會對我們的日常生活帶來什麼實質性的改變,它們確實存在著,但是作為用戶我們並不能察覺到,也並不能夠享受到它給我們帶來的直接的便利。
Google 給我們展示的這些 AI 功能看起來很簡單,例如實時字幕,它就是一個字母而已,非常簡單,但是對於用戶的使用體驗以及日常生活而言,這個功能的存在能夠帶來很多直接的改變。
Google 是真正在用 AI 改變每個人的生活,而且這樣的 AI 已經是我們很輕鬆就能看得見、摸得著的。
然而很遺憾的是,在國內的我們由於 Android 的深度定製化以及 Google 服務無法使用的原因,我們並不能享受到這些智能給我們日常生活帶來的改變。
在 I/O 大會上,Google 還常規發佈了 Android Q 以及一些硬件產品,關於這些,筆者會在後續的文章中提到,歡迎你持續關注。