你的口音正受到來自智能語音系統的歧視

在放鬆且自由的家中,享受家人圍繞的美好時光時,總會讓我們大腦不自覺地放鬆下來,將“語音系統”切換到自己的家鄉話模式。然而,當你躺在沙發上用方言指示智能音箱“放音樂”時,很有可能會收到人工智能一板一眼的迴應,“對不起,我好像不明白”。


你的口音正受到來自智能語音系統的歧視


【Siri可能正在歧視你的發音】

目前國內市場上的智能音箱,大多隻能接受標準普通話指令。一個上海寧在生活中如果習慣性地用方言提醒智能音箱“等水(發音:deng si)好了提醒我”,AI可能轉頭就幫他叫來了救護車;北方方言儘管在發音上幾乎和普通話保持一致,但東北用戶仍然需要花很長時間理順到底剛剛說的哪個詞,普通話體系中有沒有;至於西南地區的用戶則更為憤怒,我真的是在講普通話嘛,這屆智能音箱不太行!


你的口音正受到來自智能語音系統的歧視


雖然會有用戶覺得這點無傷大雅,畢竟普及普通話這麼多年,許多年輕人不管上班還是休息,都是字正腔圓地講普通話。但是如果換個場景來看,你出差到了某英語國家,使用當地的語音助手和智能音箱,但是這些軟件卻因為你略帶中式發音的英語,一遍又一遍地要求你再重複一遍指令——這能讓人心裡舒服嗎?


你的口音正受到來自智能語音系統的歧視


去年華盛頓郵報進行的一項研究中顯示,谷歌和亞馬遜的智能語音助手識別非美國本地口音的準確率,要比美國本地口音低30%。基於這一事實,也有媒體越來越關注智能音箱和語音助手,在方言、口音方面存在“地域歧視”的問題。Kaggle數據科學家Rachael Tatman在接受華爾街日報採訪時曾不客氣地指出,當前市佔率較大的幾個智能語音系統,“最適合白人,受過高等教育的中產階級美國人,可能來自西岸,因為那是打一開始就可以使用該技術的群體”。

【想改變現狀也得靠科技公司】

面對用戶口音、夾雜方言等現實問題,全球多個人工智能實驗室們也在不斷努力,試圖攻克難關

在海外,一家專門研究企業語音識別軟件的劍橋科技公司Speechmetrics,早在13年前就開始進行相關投入。然而直到2014年,這家公司用一個十億字節的語料庫加速其統計語言建模發展,才算是在建立更完善的語音識別系統上邁出了第一步。經過多年的發展,該公司的首席執行官Benedikt vonThüngen曾表示,他們已經開出出一款語音識別系統,識別澳大利亞口音的準確度和轉錄蘇格蘭口音的準確率一樣高。

另一家海外的科技公司Nuance,也在致力於讓其語音識別系統能夠識別將近80種語言,並且準確率一樣高。從公開資料來看,新版本的語音識別系統識別帶有西班牙口音的英語的準確率要高22.5%,識別美國南部方言的準確率要高16.5%,識別東南亞英語的準確率要高17.4%。


你的口音正受到來自智能語音系統的歧視


除了這些海外科技企業,國內的AI巨頭也開始注意到口音與方言帶來的影響。日前,天貓精靈的研發部門阿里AI labs宣佈正式成立方言保護專項小組,投入1億元對漢語方言進行保護和開發。此舉目的也很明確,建立以手機App及智能音箱為終端、以語音交互為採樣方法的全國動態方言數據信息網,並設立動態方言庫。據悉,未來天貓精靈將從四川方言開始,逐步進行全國方言的語音優化工作,最終實現全國方言覆蓋。


你的口音正受到來自智能語音系統的歧視


【想讓AI學會方言,是個大工程】

技術本應是中性的、不帶任何歧視的。隨著智能音箱和智能語音助手的市場不斷擴展,這些科技巨頭所面臨的用戶群體也越發廣闊且多樣化,這一現狀或將加速這些科技公司進一步完善語音識別系統。不過想要讓人工智能對用戶的口音、方言指令一視同仁,在相當長的一段時間內還是難以實現的事情。


你的口音正受到來自智能語音系統的歧視


要訓練機器識別語音,需要大量的語音樣本。首先,研究人員會收集談論各種話題的聲音,然後手動轉錄、剪輯這些音檔。這種數據組合—音檔和手寫抄錄,也就是所謂的語音語料庫(speech corpora),讓機器在聲音和文字之間產生關聯,變成學習人類如何說話的算法,進而可以辨識語音,當遇到先前沒有聽過的單詞或口音時,最好它還會猜對。

當前語音識別系統難以解決的口音與方言問題,歸根結底,其實還是系統背後的大數據不夠完善,如果語音語料庫裡的方言數據越豐富、質量越高,相對應的語言模型也會更加多樣化。換句話說,方言數據就好像《五三》,而智能語音識別系統就是學生,“題海戰術”是目前提高這名學生學習成績最有效的方式之一。考慮到全國、全世界各地的方言種類如此之多,這位學生所面臨的挑戰將會無比艱鉅。

而在這位學生的成績有所突破之前,想要通過智能音箱感受便利生活的用戶,還是認真學好普通話和通用美式英語吧。

【本文圖片來自網絡】

相關推薦

推薦中...