華捷艾米周曉軍:實現“耳眼”到大腦的人工智能

人工智能 智能手機 機器人 機器學習 手機報在線網 2017-05-22

孫俐俐

“早在2010年的時候微軟Kinect出來後,僅僅3個月就銷售了800多萬臺,在我們看來3D視覺感知是革命性的方向,它實現了大腦人工智能的“耳眼”這一創新性功能。當時我們就著手開始研究,沒想到一研究就長達5年之久,到2014年年底的時候,基本上把主要的技術障礙和算法難題給克服了。”華捷艾米CTO周曉軍說到。

2017年5月11日,手機攝像頭領域最具有影響力的智能終端產業峰會之手機產業創新大會在深圳舉行。在大會演講中,華捷艾米CTO周曉軍重點分享了3D視覺感知、自然語言交互解決方案,並從3D視覺、3D感知芯片、3D測量模組、3D視覺感知相關算法、3D視覺感知關鍵技術、3D視覺感知的移動設備、3D視覺應用方向等多維度方案及市場應用方式,華捷艾米的3D視覺方案引起業內高度關注。

周曉軍還談到,“未來世界就是萬物互聯,人工智能無所不在,而隨著人工智能算法的進步,3D視覺算法的完善,帶有3D視覺的設備可以精確地進行3D手勢識別、人體骨架識別、物體3D輪廓識別、人臉3D識別,並可以進行空間計算與場景重構,並計算追蹤設備在空間中的運動姿態等。”

筆者瞭解到,具備3D測量算法和芯片、人物提取、骨架識別技術和動作跟蹤等算法技術等全套軟硬件技術的公司只有三家:微軟、蘋果(收購了primsense)和華捷艾米。

周曉軍對筆者稱:“使用結構光方式實現3D視覺有3個技術難點。其一是發射模組的光柵設計,其二是3D測量算法,簡單點說就是激光器發射的紅外光經過光柵形成一定模式的結構光投射到物體之上,接收端採用紅外CMOS,拍攝到帶光斑的二維畸變圖像,通過算法生成3D深度數據。華捷艾米專門設計了一顆ASIC 3D測量的算法芯片,可以實時算出深度數據。”

要知道一旦攻克上述兩大難點,便可以做出深度照相機。例如目前Intel等公司都可以做到深度照相機這一功能。

還有一個核心的問題便是骨架算法。據悉,它可以把人從背景中提出來,而3D測量芯片輸出的深度圖是骨架算法的輸入源,有了骨架算法,就可以快速識別人的動作、姿態、手勢等等。華捷艾米的骨架算法,可以同時並實時識別6個人,每個人20個關節點,並且打破了微軟、蘋果(Primsense)對骨架算法的壟斷。

筆者現場瞭解到,華捷艾米的產品是最新的自主研發的3D視覺、自然語言交互解決方案,包括自主芯片、內嵌3D測量的算法、骨架算法、手勢算法和其他應用算法。華捷艾米能夠為智能手機、機器人、VR/AR等行業用戶提供搭載智能3D視覺算法的深度攝像頭,從而為行業客戶提供一站式的只能3D視覺感知、自然語言交互解決方案。例如在應用端,可運用在三維人臉識別、醫療康復、教育、遊戲和健身、看護陪伴、裝修裝飾、智能監控、跳舞運動、機器人、老人看護、運用識別、自動取款機、虛擬換衣鏡等開創性的交互體驗。

華捷艾米自主研發的3D視覺感知、自然語言交互解決方案,最大的優勢在於,技術層面,有自主芯片、內嵌3D測量的算法和應用算法,特別是2代芯片可以達到90幀/秒,這是什麼概念?通俗點講就是完全實時。

其次,華捷艾米的競爭優勢在於其技術積累,要知道在其自主完整的3D視覺感知解決早期便已經和國內一線電視廠商均有合作,其深度攝像頭更是的克服了抗變形的難點,而這一難點在算法中便已經實現過濾。

其團隊更是精英齊齊,有專門的芯片設計團隊和算法研究團隊,在算法領域目前有20多位博士做相關研究,同時也和清華大學、中科院保持深度合作關係。

更值得一提的是,作為3D視覺領域非常重要的部件芯片,華捷艾米早在2014年便早已積極佈局,獲悉,華捷艾米的一代3D測量芯片已經量產,該芯片可支持彩色攝像頭數據輸入,支持VGA分辨率,30FPS輸出,支持VGB深度圖、30FPS輸出;同時也支持QVGA深度圖,60FPS輸出,支持4路數字音頻輸入。

據筆者瞭解,華捷艾米手機芯片將於今年Q4量產,其支持主流RGB攝像頭、1080P分辨率,拍照增強、美化、輸出3D人臉識別等功能;此外,在年底將內置更多人工智能算法,應用領域不僅持3D人臉識別,同時也支持摳圖、人體行為識別、語音、AR、人體與手持設備的配合等領域。

而遠場語音識別,是基於線性(環形)矩陣麥克風陣列的SSP技術,有效抑制噪聲和混響,實現遠距離(超過5米)語音採集和語音識別,可以通過語音對設備進行精準的遠程語音控制,適用於智能家居、家電的交互場景。

毫無疑問,隨著3D攝像頭技術的不斷髮展與創新行業應用的推動,不僅在智能手機、機器人、金融領域還有人臉識別、安防、智能家居等領域都將在智能深度攝像頭的帶動下給我們帶來劃時代的交互新體驗。

相關推薦

推薦中...