谷歌開源語音命令數據集,幫助開發者搭建基礎的語音交互

谷歌開源語音命令數據集,幫助開發者搭建基礎的語音交互

谷歌的工程師們經常被問到這麼個問題:

怎麼上手用深度學習做語音識別或其它音頻識別,比如關鍵詞或指令?

雖然,現在出現了些很優秀的開源語音識別系統,比如 Kaldi,就能把神經網絡作為其中的一個模塊。但其高度複雜性,讓它們並不適合作為解決簡單任務的指南。更重要的是,對於新手而言,免費、可公開獲取的數據集並不多,經過預處理的、或適合於簡單的關鍵詞檢測的也很少。

為解決這些問題,谷歌的 TensorFlow 和 AIY 團隊創建了 Speech Commands Dataset,即“語音命令數據集”,並基於它向 TensorFlow 添加訓練和推理的示例代碼。

雷鋒網消息,谷歌在今日宣佈開源該數據集。

對 30 個命令短語,該數據集有 65000 次的長約一秒鐘的發音。這來自數千個不同的人向 AIY 網站提交的貢獻。它以 Creative Commons BY 4.0 許可發佈,隨著新貢獻的添加,該數據集在未來會不斷擴大。

建立這個數據集的目的,是幫助大家為應用創建基礎但有用的語音交互,比如“Yes”、“No”、數字、方向等詞語。谷歌也已經將開發這一數據集的基礎設施開源,並希望看到更多人藉此創建更多版本的數據集,尤其是針對冷門語言和應用。

下載預建的 TensorFlow 安卓演示 APP,打開 “TF Speech”,就能體驗谷歌基於該數據集開發的識別模型。另外,你可以通過 TensorFlow.org 的音頻識別 tutorial 學習怎麼開發你自己的模型。

相關推薦

推薦中...