腦波轉語音,不開口每分鐘“說”出150詞:Nature發腦機接口新突破

魚羊 發自 凹非寺

量子位 報道 | 公眾號 QbitAI


腦波轉語音,不開口每分鐘“說”出150詞:Nature發腦機接口新突破

只要靜靜坐著,世界就能聽到你的聲音,這樣的畫面你可曾想象過?

是的,不必動手,也不必開口,只要你的腦波流轉,AI就能以每分鐘150個詞的速度幫你說出心聲。

Nature上最新發表了一篇論文,科學家們設計了一種新的可以將大腦信號轉換成語言的裝置,不需要勞動任何一塊肌肉,深度學習就能直接讀懂大腦,解碼腦中所想,實現流暢交流。

腦波轉語音,不開口每分鐘“說”出150詞:Nature發腦機接口新突破

受漸凍症折磨的霍金後期依靠活動臉頰上的一塊肌肉來打字

如何做到

研究團隊來自加州大學舊金山分校,神經外科教授Dr. Edward Chang等人試圖將大腦中的神經活動轉換成語音,以造福因為神經損傷而失去交流能力的人。

說話這件事其實並沒有想象中那麼簡單,看似只是動動嘴,事實上卻是對聲道咬合結構精準、快速的多維度控制。

研究人員選擇了深度學習方法。

為了進行試驗,專家們招募了五名在醫院接受癲癇治療的志願者。

腦波轉語音,不開口每分鐘“說”出150詞:Nature發腦機接口新突破

神經解碼的第一步是從高密度皮層活動中提取相關信號特徵。志願者們說了上百句話,而通過植入性大腦皮層電圖(ECoG),研究人員可以跟蹤控制語言和發音的大腦區域的活動,並將這些活動與志願者說話時嘴脣、舌頭、喉部和下顎的微妙運動聯繫起來,然後將這些運動學特徵翻譯成口語句子。

研究人員採用bLSTM(bidi-rectional long short-term memory)循環神經網絡來破譯ECoG信號表達的運動學表徵。

接著用另外一個bLSTM解碼先前破譯的運動學特徵中的聲學特徵。

聲學特徵是能從語音波形中提取的頻譜特徵,因此用解碼後的信號就可以合成出語音波形。

在這個過程中,兩個神經網絡都會被投喂訓練數據,以提高它們的解碼性能。

腦波轉語音,不開口每分鐘“說”出150詞:Nature發腦機接口新突破

對比志願者說話的頻譜圖和大腦信號合成的頻譜圖,可以看到它們已經非常接近了。

研究者們讓以英語為母語的人聽了聽合成的語音,結果表明,至少有70%的虛擬語言是可以被理解的。

有何提高

腦波轉語音已經不是什麼新鮮事了,這篇文章能登上Nature,自是有過人之處。

這個新的裝置每分鐘能生成 150 個單詞,接近人類的自然語速。

要知道已有的語音合成腦機接口每分鐘只能生成 8 個單詞,使用者也能用它們來表達自己的意思,但那遠遠稱不上是“人類交流”。

想象一下,倘若霍金健在,在這種技術的幫助下,他可能再也不用艱難地活動臉頰上的肌肉來拼出單詞,AI能真正幫助他重新“開口”,傳播智慧。

“這是一項艱鉅的工作,它將我們推上了語言恢復方面的一個新臺階。”神經學家Dr. Anthony Ritaccio這樣評價。

網友反應

論文一出,驚歎聲一片。

有網友稱讚這是ECoG領域非常有價值的一個結果,並且也給未來的實際應用打開了新的大門:

腦波轉語音,不開口每分鐘“說”出150詞:Nature發腦機接口新突破

還有網友已經迫不及待地開始暢想未來:

如果將來這項技術能被放入耳機這樣的可穿戴設備,那我們就能以最快的速度在手機上打字了!這種可能性實在是鵝妹子嚶!
腦波轉語音,不開口每分鐘“說”出150詞:Nature發腦機接口新突破

也有一些負面的聲音:

我們總有法子讓你開口的。
腦波轉語音,不開口每分鐘“說”出150詞:Nature發腦機接口新突破

嗯…不過事實上這項技術只會在你想開口時捕捉相應的腦電波。

必須說明的是,這項技術使用的ECoG電極陣列需要通過開顱手術來放置到大腦之中,對於飽受疾病、意外之害而失去語言能力的患者來說是福音天降,但更大範圍的應用還有很長的路要走。

傳送門

論文鏈接:https://www.gwern.net/docs/ai/2019-anumanchipalli.pdf

— 完 —

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

相關推薦

推薦中...