'澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019'

""澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

除了人、車以外,要做城市規劃,做其他方面應用,對場景也非常重視。場景的視頻結構化、時間、地點,這些都是視頻的Metadata,有了它之後你就可以做各種邏輯推理,完成各種任務。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

除了人、車以外,要做城市規劃,做其他方面應用,對場景也非常重視。場景的視頻結構化、時間、地點,這些都是視頻的Metadata,有了它之後你就可以做各種邏輯推理,完成各種任務。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展前瞻

最後這個部分是跟大家一起探討人工智能行業的發展前瞻,也有很多人在擔心人工智能是不是已經到頂峰了、是不是已經開始停滯了。因為計算機資源消耗很多的電能、數據難以獲取,會存在很多障礙。我們一起來探討一下,從2010年以來,計算機視覺取得了飛躍的發展,離不開三大要素。

這三大要素可能很多人都知道,也有人說是四大要素,因為投資的大量的湧入非常重要。

這三大要素,第一是數據-大數據-超大數據。

第二是計算資源,大家看到英偉達的GPU每半年都會更新換代,速度越來越快,顯存越來越大,而且價錢越來越便宜。在昨天的AI芯片會場我們也看到了很多公司在做落地的AI芯片。

第三方面是人工智能開拓者、領頭人,以及在研發行業中耕耘的人員的努力。今年6月份的CVPR上,李飛飛團隊的ImageNet的文章獲得PAMI獎,得到了非常好的肯定,沒有這樣的數據就沒有今天的AlexNet,VGG、GoogleNet、ResNet,我相信每個人都會同意這一點,這樣超大的數據庫訓練的模型,不但用在拍照的圖像上,也可以將它用到醫學圖像。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

除了人、車以外,要做城市規劃,做其他方面應用,對場景也非常重視。場景的視頻結構化、時間、地點,這些都是視頻的Metadata,有了它之後你就可以做各種邏輯推理,完成各種任務。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展前瞻

最後這個部分是跟大家一起探討人工智能行業的發展前瞻,也有很多人在擔心人工智能是不是已經到頂峰了、是不是已經開始停滯了。因為計算機資源消耗很多的電能、數據難以獲取,會存在很多障礙。我們一起來探討一下,從2010年以來,計算機視覺取得了飛躍的發展,離不開三大要素。

這三大要素可能很多人都知道,也有人說是四大要素,因為投資的大量的湧入非常重要。

這三大要素,第一是數據-大數據-超大數據。

第二是計算資源,大家看到英偉達的GPU每半年都會更新換代,速度越來越快,顯存越來越大,而且價錢越來越便宜。在昨天的AI芯片會場我們也看到了很多公司在做落地的AI芯片。

第三方面是人工智能開拓者、領頭人,以及在研發行業中耕耘的人員的努力。今年6月份的CVPR上,李飛飛團隊的ImageNet的文章獲得PAMI獎,得到了非常好的肯定,沒有這樣的數據就沒有今天的AlexNet,VGG、GoogleNet、ResNet,我相信每個人都會同意這一點,這樣超大的數據庫訓練的模型,不但用在拍照的圖像上,也可以將它用到醫學圖像。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今年大家也看到了開拓人工智能的三位先驅者都獲得了圖靈獎,肯定了他們對今天的人工智能的飛躍發展起到的作用。

要得到一個很好的視覺模型,不但是視覺的,甚至說語音也是可以的,但它的基本原則是什麼呢?我們認為:一要有足夠的數據,這個數據要平衡。二要有很好的標註,標註中不要有很多噪聲。三是要用足夠深的網絡,這樣就可以訓練出一個魯棒性很好、泛化性很好的模型。

但問題是從哪兒來數據呢?這個數據的標註牽涉到很多的人力、物力和時間,要用很深的網絡,越深的網絡牽涉的計算機資源就越大。剛才我們看到曠視有一個很大的GPU資源來做訓練,這都是問題。計算機資源這一塊我就不談了,大家也知道很多,也在不斷地改進。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

除了人、車以外,要做城市規劃,做其他方面應用,對場景也非常重視。場景的視頻結構化、時間、地點,這些都是視頻的Metadata,有了它之後你就可以做各種邏輯推理,完成各種任務。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展前瞻

最後這個部分是跟大家一起探討人工智能行業的發展前瞻,也有很多人在擔心人工智能是不是已經到頂峰了、是不是已經開始停滯了。因為計算機資源消耗很多的電能、數據難以獲取,會存在很多障礙。我們一起來探討一下,從2010年以來,計算機視覺取得了飛躍的發展,離不開三大要素。

這三大要素可能很多人都知道,也有人說是四大要素,因為投資的大量的湧入非常重要。

這三大要素,第一是數據-大數據-超大數據。

第二是計算資源,大家看到英偉達的GPU每半年都會更新換代,速度越來越快,顯存越來越大,而且價錢越來越便宜。在昨天的AI芯片會場我們也看到了很多公司在做落地的AI芯片。

第三方面是人工智能開拓者、領頭人,以及在研發行業中耕耘的人員的努力。今年6月份的CVPR上,李飛飛團隊的ImageNet的文章獲得PAMI獎,得到了非常好的肯定,沒有這樣的數據就沒有今天的AlexNet,VGG、GoogleNet、ResNet,我相信每個人都會同意這一點,這樣超大的數據庫訓練的模型,不但用在拍照的圖像上,也可以將它用到醫學圖像。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今年大家也看到了開拓人工智能的三位先驅者都獲得了圖靈獎,肯定了他們對今天的人工智能的飛躍發展起到的作用。

要得到一個很好的視覺模型,不但是視覺的,甚至說語音也是可以的,但它的基本原則是什麼呢?我們認為:一要有足夠的數據,這個數據要平衡。二要有很好的標註,標註中不要有很多噪聲。三是要用足夠深的網絡,這樣就可以訓練出一個魯棒性很好、泛化性很好的模型。

但問題是從哪兒來數據呢?這個數據的標註牽涉到很多的人力、物力和時間,要用很深的網絡,越深的網絡牽涉的計算機資源就越大。剛才我們看到曠視有一個很大的GPU資源來做訓練,這都是問題。計算機資源這一塊我就不談了,大家也知道很多,也在不斷地改進。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

我就談談數據的限制。因為數據的有限性,如果數據不夠,帶來的問題就是魯棒性、泛化性不好,在這個數據上訓練的東西不可以輕易地用在另外的場景,或者用在上面的性能會大幅地下降。但是我們想一下,傅里葉變換這個無限的表達公式是完美的,但是當它用在硬件的時候,我們的硬件是有限的,所以也需要有限的東西來表達無限的。比如說用8×8DCT來做圖像跟視頻的壓縮,也會發現它在很多場合下產生類似魯棒性的問題,所以這應該不是一個問題。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

除了人、車以外,要做城市規劃,做其他方面應用,對場景也非常重視。場景的視頻結構化、時間、地點,這些都是視頻的Metadata,有了它之後你就可以做各種邏輯推理,完成各種任務。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展前瞻

最後這個部分是跟大家一起探討人工智能行業的發展前瞻,也有很多人在擔心人工智能是不是已經到頂峰了、是不是已經開始停滯了。因為計算機資源消耗很多的電能、數據難以獲取,會存在很多障礙。我們一起來探討一下,從2010年以來,計算機視覺取得了飛躍的發展,離不開三大要素。

這三大要素可能很多人都知道,也有人說是四大要素,因為投資的大量的湧入非常重要。

這三大要素,第一是數據-大數據-超大數據。

第二是計算資源,大家看到英偉達的GPU每半年都會更新換代,速度越來越快,顯存越來越大,而且價錢越來越便宜。在昨天的AI芯片會場我們也看到了很多公司在做落地的AI芯片。

第三方面是人工智能開拓者、領頭人,以及在研發行業中耕耘的人員的努力。今年6月份的CVPR上,李飛飛團隊的ImageNet的文章獲得PAMI獎,得到了非常好的肯定,沒有這樣的數據就沒有今天的AlexNet,VGG、GoogleNet、ResNet,我相信每個人都會同意這一點,這樣超大的數據庫訓練的模型,不但用在拍照的圖像上,也可以將它用到醫學圖像。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今年大家也看到了開拓人工智能的三位先驅者都獲得了圖靈獎,肯定了他們對今天的人工智能的飛躍發展起到的作用。

要得到一個很好的視覺模型,不但是視覺的,甚至說語音也是可以的,但它的基本原則是什麼呢?我們認為:一要有足夠的數據,這個數據要平衡。二要有很好的標註,標註中不要有很多噪聲。三是要用足夠深的網絡,這樣就可以訓練出一個魯棒性很好、泛化性很好的模型。

但問題是從哪兒來數據呢?這個數據的標註牽涉到很多的人力、物力和時間,要用很深的網絡,越深的網絡牽涉的計算機資源就越大。剛才我們看到曠視有一個很大的GPU資源來做訓練,這都是問題。計算機資源這一塊我就不談了,大家也知道很多,也在不斷地改進。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

我就談談數據的限制。因為數據的有限性,如果數據不夠,帶來的問題就是魯棒性、泛化性不好,在這個數據上訓練的東西不可以輕易地用在另外的場景,或者用在上面的性能會大幅地下降。但是我們想一下,傅里葉變換這個無限的表達公式是完美的,但是當它用在硬件的時候,我們的硬件是有限的,所以也需要有限的東西來表達無限的。比如說用8×8DCT來做圖像跟視頻的壓縮,也會發現它在很多場合下產生類似魯棒性的問題,所以這應該不是一個問題。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

如何解決大量數據的生成和標註,以及數據的長尾問題呢?除了我們每個人都知道的數據採集、人工標註,當然現在又出現了很多很好的標註工具輔助我們。最近我們也看到了很多人用GAN來生成數據,如做ReID、人群估計,有很多的場景可以用GAN來生成。

有人也用虛擬模擬軟件Simulator,我們知道做自動駕駛的,沒辦法去採集一些數據。比如要採集下雨的數據,要等到雨天開車出去;要採集下雪的數據,要等到冬天下雪的時候出去;要採集危險的數據,怎麼去採集呢?用虛擬的模擬軟件Simulator,採集不同場合下、不同情形下的數據。但是有人會問,採集下來的數據與現實的差別很遠,有人也會用GAN來把虛擬的數據轉成更接近現實的數據。也有人用環境互動的方式、強化學習的方式生成數據,有的會用多種模型、多種模態來半自動地生產數據。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

除了人、車以外,要做城市規劃,做其他方面應用,對場景也非常重視。場景的視頻結構化、時間、地點,這些都是視頻的Metadata,有了它之後你就可以做各種邏輯推理,完成各種任務。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展前瞻

最後這個部分是跟大家一起探討人工智能行業的發展前瞻,也有很多人在擔心人工智能是不是已經到頂峰了、是不是已經開始停滯了。因為計算機資源消耗很多的電能、數據難以獲取,會存在很多障礙。我們一起來探討一下,從2010年以來,計算機視覺取得了飛躍的發展,離不開三大要素。

這三大要素可能很多人都知道,也有人說是四大要素,因為投資的大量的湧入非常重要。

這三大要素,第一是數據-大數據-超大數據。

第二是計算資源,大家看到英偉達的GPU每半年都會更新換代,速度越來越快,顯存越來越大,而且價錢越來越便宜。在昨天的AI芯片會場我們也看到了很多公司在做落地的AI芯片。

第三方面是人工智能開拓者、領頭人,以及在研發行業中耕耘的人員的努力。今年6月份的CVPR上,李飛飛團隊的ImageNet的文章獲得PAMI獎,得到了非常好的肯定,沒有這樣的數據就沒有今天的AlexNet,VGG、GoogleNet、ResNet,我相信每個人都會同意這一點,這樣超大的數據庫訓練的模型,不但用在拍照的圖像上,也可以將它用到醫學圖像。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今年大家也看到了開拓人工智能的三位先驅者都獲得了圖靈獎,肯定了他們對今天的人工智能的飛躍發展起到的作用。

要得到一個很好的視覺模型,不但是視覺的,甚至說語音也是可以的,但它的基本原則是什麼呢?我們認為:一要有足夠的數據,這個數據要平衡。二要有很好的標註,標註中不要有很多噪聲。三是要用足夠深的網絡,這樣就可以訓練出一個魯棒性很好、泛化性很好的模型。

但問題是從哪兒來數據呢?這個數據的標註牽涉到很多的人力、物力和時間,要用很深的網絡,越深的網絡牽涉的計算機資源就越大。剛才我們看到曠視有一個很大的GPU資源來做訓練,這都是問題。計算機資源這一塊我就不談了,大家也知道很多,也在不斷地改進。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

我就談談數據的限制。因為數據的有限性,如果數據不夠,帶來的問題就是魯棒性、泛化性不好,在這個數據上訓練的東西不可以輕易地用在另外的場景,或者用在上面的性能會大幅地下降。但是我們想一下,傅里葉變換這個無限的表達公式是完美的,但是當它用在硬件的時候,我們的硬件是有限的,所以也需要有限的東西來表達無限的。比如說用8×8DCT來做圖像跟視頻的壓縮,也會發現它在很多場合下產生類似魯棒性的問題,所以這應該不是一個問題。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

如何解決大量數據的生成和標註,以及數據的長尾問題呢?除了我們每個人都知道的數據採集、人工標註,當然現在又出現了很多很好的標註工具輔助我們。最近我們也看到了很多人用GAN來生成數據,如做ReID、人群估計,有很多的場景可以用GAN來生成。

有人也用虛擬模擬軟件Simulator,我們知道做自動駕駛的,沒辦法去採集一些數據。比如要採集下雨的數據,要等到雨天開車出去;要採集下雪的數據,要等到冬天下雪的時候出去;要採集危險的數據,怎麼去採集呢?用虛擬的模擬軟件Simulator,採集不同場合下、不同情形下的數據。但是有人會問,採集下來的數據與現實的差別很遠,有人也會用GAN來把虛擬的數據轉成更接近現實的數據。也有人用環境互動的方式、強化學習的方式生成數據,有的會用多種模型、多種模態來半自動地生產數據。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

隨著大量數據的生成,半監督、無監督學習的方法有所突破,我相信計算機視覺的未來發展是非常樂觀的。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

除了人、車以外,要做城市規劃,做其他方面應用,對場景也非常重視。場景的視頻結構化、時間、地點,這些都是視頻的Metadata,有了它之後你就可以做各種邏輯推理,完成各種任務。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展前瞻

最後這個部分是跟大家一起探討人工智能行業的發展前瞻,也有很多人在擔心人工智能是不是已經到頂峰了、是不是已經開始停滯了。因為計算機資源消耗很多的電能、數據難以獲取,會存在很多障礙。我們一起來探討一下,從2010年以來,計算機視覺取得了飛躍的發展,離不開三大要素。

這三大要素可能很多人都知道,也有人說是四大要素,因為投資的大量的湧入非常重要。

這三大要素,第一是數據-大數據-超大數據。

第二是計算資源,大家看到英偉達的GPU每半年都會更新換代,速度越來越快,顯存越來越大,而且價錢越來越便宜。在昨天的AI芯片會場我們也看到了很多公司在做落地的AI芯片。

第三方面是人工智能開拓者、領頭人,以及在研發行業中耕耘的人員的努力。今年6月份的CVPR上,李飛飛團隊的ImageNet的文章獲得PAMI獎,得到了非常好的肯定,沒有這樣的數據就沒有今天的AlexNet,VGG、GoogleNet、ResNet,我相信每個人都會同意這一點,這樣超大的數據庫訓練的模型,不但用在拍照的圖像上,也可以將它用到醫學圖像。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今年大家也看到了開拓人工智能的三位先驅者都獲得了圖靈獎,肯定了他們對今天的人工智能的飛躍發展起到的作用。

要得到一個很好的視覺模型,不但是視覺的,甚至說語音也是可以的,但它的基本原則是什麼呢?我們認為:一要有足夠的數據,這個數據要平衡。二要有很好的標註,標註中不要有很多噪聲。三是要用足夠深的網絡,這樣就可以訓練出一個魯棒性很好、泛化性很好的模型。

但問題是從哪兒來數據呢?這個數據的標註牽涉到很多的人力、物力和時間,要用很深的網絡,越深的網絡牽涉的計算機資源就越大。剛才我們看到曠視有一個很大的GPU資源來做訓練,這都是問題。計算機資源這一塊我就不談了,大家也知道很多,也在不斷地改進。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

我就談談數據的限制。因為數據的有限性,如果數據不夠,帶來的問題就是魯棒性、泛化性不好,在這個數據上訓練的東西不可以輕易地用在另外的場景,或者用在上面的性能會大幅地下降。但是我們想一下,傅里葉變換這個無限的表達公式是完美的,但是當它用在硬件的時候,我們的硬件是有限的,所以也需要有限的東西來表達無限的。比如說用8×8DCT來做圖像跟視頻的壓縮,也會發現它在很多場合下產生類似魯棒性的問題,所以這應該不是一個問題。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

如何解決大量數據的生成和標註,以及數據的長尾問題呢?除了我們每個人都知道的數據採集、人工標註,當然現在又出現了很多很好的標註工具輔助我們。最近我們也看到了很多人用GAN來生成數據,如做ReID、人群估計,有很多的場景可以用GAN來生成。

有人也用虛擬模擬軟件Simulator,我們知道做自動駕駛的,沒辦法去採集一些數據。比如要採集下雨的數據,要等到雨天開車出去;要採集下雪的數據,要等到冬天下雪的時候出去;要採集危險的數據,怎麼去採集呢?用虛擬的模擬軟件Simulator,採集不同場合下、不同情形下的數據。但是有人會問,採集下來的數據與現實的差別很遠,有人也會用GAN來把虛擬的數據轉成更接近現實的數據。也有人用環境互動的方式、強化學習的方式生成數據,有的會用多種模型、多種模態來半自動地生產數據。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

隨著大量數據的生成,半監督、無監督學習的方法有所突破,我相信計算機視覺的未來發展是非常樂觀的。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展,我個人認為還沒到巔峰,我相信大部分在座的人也會同意這個觀點,尤其是還有很多的落地機會,我們的學術總是走在前面的,落地還有很長的時間。

作為工業界的我們,就要考慮實際情況,怎麼樣來做遷移學習,怎麼樣剪枝優化壓縮。還有更重要的就是在現有環境中去思考、去開拓新的AI應用,多去想一想、嘗試一下AI能為我們做什麼。剛才也有很多人談到了這個時代。我覺得IoT時代,從互聯網時代開始,給我們帶來了很多遊戲規則的變化,比如一個公司不擁有酒店,但它可以做酒店的生意,那是什麼公司呢?Airbnb。你沒有車,可以做車輛有關的業務,那就是Uber、滴滴,在新加坡是Grab,你沒有商店,可以賣東西,早上我聽了阿里的介紹,我也是很有感觸。IoT的時代造就了那麼多的公司,遊戲規則的變化。現在是人工智能的時代,再加上IoT,還會讓更多這樣的公司出現。

所以大家都帶著這種思考,嘗試一下AI能為我們做什麼。還有就是你們可以在自己的環境當中蒐集、建立數據集,因為很多的現象,過去有人嘗試用公式把它表達出來,但是很多現象是沒有辦法用公式表達的。但是你有數據集,可以收集數據,標註、訓練模型,從而發現它們內在的關係,然後可以制定決策,這ye包括經濟的決策、金融的決策,DNA方面的研發,這些都可以去探討,從你挖掘數據中探討它們的內在關係。

另一方面可以建立強化學習、遞增學習的商業環境去訓練挖掘。

在人工智能方面還有很多的空間可以做,比如我們說到監控相機對物體的檢測或識別是要理解看到了什麼,,但是研究機器人就不僅僅要知道看到了什麼,它還要採取行動。所以不僅僅是理解,還有決策,反饋再決策。所以這個強化學習是很重要的。DeepMind很成功,你看到他們很多的人工智能的開發都在遊戲方面,真正把它用在機器人的實際操作方面,你會發現還有很多的問題,這裡面有很多的空白大家可以做。你在機器人的大會上,看到那些疊衣服的機器人,你看了以後覺得不錯,但是那個速度超慢,你不會覺得它能代替人。因為商業價值不在那裡,這就是人工智能的空缺,我們還有很多東西可以去做。最後一點就是我們要打造靈活的軟硬件、AI平臺,讓它的落地做得更好。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

除了人、車以外,要做城市規劃,做其他方面應用,對場景也非常重視。場景的視頻結構化、時間、地點,這些都是視頻的Metadata,有了它之後你就可以做各種邏輯推理,完成各種任務。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展前瞻

最後這個部分是跟大家一起探討人工智能行業的發展前瞻,也有很多人在擔心人工智能是不是已經到頂峰了、是不是已經開始停滯了。因為計算機資源消耗很多的電能、數據難以獲取,會存在很多障礙。我們一起來探討一下,從2010年以來,計算機視覺取得了飛躍的發展,離不開三大要素。

這三大要素可能很多人都知道,也有人說是四大要素,因為投資的大量的湧入非常重要。

這三大要素,第一是數據-大數據-超大數據。

第二是計算資源,大家看到英偉達的GPU每半年都會更新換代,速度越來越快,顯存越來越大,而且價錢越來越便宜。在昨天的AI芯片會場我們也看到了很多公司在做落地的AI芯片。

第三方面是人工智能開拓者、領頭人,以及在研發行業中耕耘的人員的努力。今年6月份的CVPR上,李飛飛團隊的ImageNet的文章獲得PAMI獎,得到了非常好的肯定,沒有這樣的數據就沒有今天的AlexNet,VGG、GoogleNet、ResNet,我相信每個人都會同意這一點,這樣超大的數據庫訓練的模型,不但用在拍照的圖像上,也可以將它用到醫學圖像。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今年大家也看到了開拓人工智能的三位先驅者都獲得了圖靈獎,肯定了他們對今天的人工智能的飛躍發展起到的作用。

要得到一個很好的視覺模型,不但是視覺的,甚至說語音也是可以的,但它的基本原則是什麼呢?我們認為:一要有足夠的數據,這個數據要平衡。二要有很好的標註,標註中不要有很多噪聲。三是要用足夠深的網絡,這樣就可以訓練出一個魯棒性很好、泛化性很好的模型。

但問題是從哪兒來數據呢?這個數據的標註牽涉到很多的人力、物力和時間,要用很深的網絡,越深的網絡牽涉的計算機資源就越大。剛才我們看到曠視有一個很大的GPU資源來做訓練,這都是問題。計算機資源這一塊我就不談了,大家也知道很多,也在不斷地改進。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

我就談談數據的限制。因為數據的有限性,如果數據不夠,帶來的問題就是魯棒性、泛化性不好,在這個數據上訓練的東西不可以輕易地用在另外的場景,或者用在上面的性能會大幅地下降。但是我們想一下,傅里葉變換這個無限的表達公式是完美的,但是當它用在硬件的時候,我們的硬件是有限的,所以也需要有限的東西來表達無限的。比如說用8×8DCT來做圖像跟視頻的壓縮,也會發現它在很多場合下產生類似魯棒性的問題,所以這應該不是一個問題。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

如何解決大量數據的生成和標註,以及數據的長尾問題呢?除了我們每個人都知道的數據採集、人工標註,當然現在又出現了很多很好的標註工具輔助我們。最近我們也看到了很多人用GAN來生成數據,如做ReID、人群估計,有很多的場景可以用GAN來生成。

有人也用虛擬模擬軟件Simulator,我們知道做自動駕駛的,沒辦法去採集一些數據。比如要採集下雨的數據,要等到雨天開車出去;要採集下雪的數據,要等到冬天下雪的時候出去;要採集危險的數據,怎麼去採集呢?用虛擬的模擬軟件Simulator,採集不同場合下、不同情形下的數據。但是有人會問,採集下來的數據與現實的差別很遠,有人也會用GAN來把虛擬的數據轉成更接近現實的數據。也有人用環境互動的方式、強化學習的方式生成數據,有的會用多種模型、多種模態來半自動地生產數據。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

隨著大量數據的生成,半監督、無監督學習的方法有所突破,我相信計算機視覺的未來發展是非常樂觀的。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展,我個人認為還沒到巔峰,我相信大部分在座的人也會同意這個觀點,尤其是還有很多的落地機會,我們的學術總是走在前面的,落地還有很長的時間。

作為工業界的我們,就要考慮實際情況,怎麼樣來做遷移學習,怎麼樣剪枝優化壓縮。還有更重要的就是在現有環境中去思考、去開拓新的AI應用,多去想一想、嘗試一下AI能為我們做什麼。剛才也有很多人談到了這個時代。我覺得IoT時代,從互聯網時代開始,給我們帶來了很多遊戲規則的變化,比如一個公司不擁有酒店,但它可以做酒店的生意,那是什麼公司呢?Airbnb。你沒有車,可以做車輛有關的業務,那就是Uber、滴滴,在新加坡是Grab,你沒有商店,可以賣東西,早上我聽了阿里的介紹,我也是很有感觸。IoT的時代造就了那麼多的公司,遊戲規則的變化。現在是人工智能的時代,再加上IoT,還會讓更多這樣的公司出現。

所以大家都帶著這種思考,嘗試一下AI能為我們做什麼。還有就是你們可以在自己的環境當中蒐集、建立數據集,因為很多的現象,過去有人嘗試用公式把它表達出來,但是很多現象是沒有辦法用公式表達的。但是你有數據集,可以收集數據,標註、訓練模型,從而發現它們內在的關係,然後可以制定決策,這ye包括經濟的決策、金融的決策,DNA方面的研發,這些都可以去探討,從你挖掘數據中探討它們的內在關係。

另一方面可以建立強化學習、遞增學習的商業環境去訓練挖掘。

在人工智能方面還有很多的空間可以做,比如我們說到監控相機對物體的檢測或識別是要理解看到了什麼,,但是研究機器人就不僅僅要知道看到了什麼,它還要採取行動。所以不僅僅是理解,還有決策,反饋再決策。所以這個強化學習是很重要的。DeepMind很成功,你看到他們很多的人工智能的開發都在遊戲方面,真正把它用在機器人的實際操作方面,你會發現還有很多的問題,這裡面有很多的空白大家可以做。你在機器人的大會上,看到那些疊衣服的機器人,你看了以後覺得不錯,但是那個速度超慢,你不會覺得它能代替人。因為商業價值不在那裡,這就是人工智能的空缺,我們還有很多東西可以去做。最後一點就是我們要打造靈活的軟硬件、AI平臺,讓它的落地做得更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

最後講一下澎思新加坡研究院,它在澎思科技主要承擔兩方面的任務,第一是做垂直領域技術的開發,最重要強調快速,能夠有工業級研發的交付能力,結合公司的發展方向做創新。第二是要做前沿科技的探索和儲備。我們在新加坡這個窗口,直接接軌全世界,我們又帶著全球的視角來探索前沿科技,並且我們要非常敏感,要很快在我們這邊研發一些突破性的技術,讓我們公司在新的領域、新的業務當中有一些大展手腳的機會。

"澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)於深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。

7月14日下午,在「智慧城市·視覺智能」專場上,澎思科技首席科學家、新加坡研究院院長申省梅進行了題為「後深度學習時代的智能視覺技術落地」的演講。

作為人工智能領域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機器學習到深度學習、增強學習,從監督學習到半監督、無監督學習都有佈局,澎思擁有計算機視覺全棧技術,並在人臉識別、行人檢測,目標跟蹤、行人再識別、車輛異常行為檢測、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績,但對於如何提高非受限條件下的動態人臉識別效率,申省梅認為除了在人臉識別技術上不斷提高外,還要從源端著手,以及採用圖像增強的方法,比如超分辨,去除運動模糊、降噪、去抖動、去霧、去雨、去雪等。

另外,在視覺的落地上,申省梅認為應該堅持“以商業價值為導向的算法開發”。用“最有效的算法+最經濟的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運營模式。

獲得最佳視覺模型最簡單的規則是,足夠多的平衡數據、足夠好的數據標註、足夠深的網絡。

隨著大量數據的生成,半監督無監督的探討有所突破,計算機視覺的未來發展十分樂觀。

隨著工業界對計算機視覺的持續青睞,眾多企業將結合實際應用場景來剪枝優化遷移,不斷開拓新的應用領域,人工智能行業的發展還遠沒有到巔峰,還有眾多的落地機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思科技首席科學家申省梅

以下是申省梅大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:

大家好,我是澎思科技的申省梅,我今天跟大家分享的是課題是“後深度學習時代的智能視覺技術落地——商業價值為導向的技術研發”。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天的內容分為三個部分,第一部分是計算機視覺澎思科技的全棧技術;第二,有這樣的技術之後,商業價值在哪裡?我們要講的是以商業價值為導向的算法開發。第三部分,分享一下人工智能行業的發展前瞻。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

計算機視覺澎思科技的全棧技術

澎思的計算機視覺全棧技術包含兩個方面,首先是澎思有一支全球頂尖的算法團隊,有國際前沿的算法研發能力。計算機視覺包含了對周圍世界的描述-幾何學,和計算機模仿大腦對看到的世界的學習建模。以前的學習是機器學習,現在深度學習逐步代替了機器學習,並且我們也看到了很多幾何學方面出現的問題和侷限,大家用深度學習把它解決得很好。我們從傳感器(包括普通相機、高清相機、ToF 傳感器,Imaging LiDAR),我們從它的底層的研究、圖像的處理到3D融合、3D重建,從機器學習到深度學習,從深度學習到強化學習,從監督學習到半監督、無監督學習,橫跨了所有的計算機視覺領域。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另一方面,我們團隊也參與了很多產品、解決方案的研發,擁有豐富的經驗。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這裡跟大家分享一下我們在計算機視覺領域展現的成果。我們曾參加過多項國際比賽,並拿到冠軍,包括人臉方面的,如人臉識別。目標檢測、圖像分類、圖像分割方面的獎項,也包括情感、目標跟蹤,及智能交通方面,還有機器人、自動駕駛方面的比賽。去年我們在IROS的操作機器人當中拿到冠軍,還有NeurIPS裡面的自動駕駛也拿到了冠軍,這個自動駕駛牽涉的技術面是非常廣的,有機器視覺,還有導航、控制。剛才大家提到了很多機器人跟別的學科的不同,就是因為它不僅僅是看到了、理解了,還要做決策,做決策的過程實際上是一個交互的過程。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人臉識別方面,我們參加了美國NIST人臉識別比賽,獲得了冠軍,包括1:1、1:N、N:M的應用。為什麼我們重視這個比賽,是因為它是無約束人臉的比賽,無約束人臉就是人臉拍的時候沒辦法控制它的角度,有各種各樣的姿態,有很多遮擋,還有光線不同,反光、光線不均勻,還有各種表情,以及有時候像素非常低,這個比賽也是動態和靜態混合的比賽。在這個比賽當中,我們應用了遷移學習,也應用了異構多模融合和雙模態的對抗性生成網絡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有一個比賽是微軟的百萬人臉大比賽,我們也是獲得了雙項競賽冠軍。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在做人臉識別的過程中,我們也用了深層對抗網絡GAN,使得數據的不平衡性得到改善,從數據的結果可以看到,大家有用3D的方式來增加訓練數據,但相比之下,我們用GAN來做的,效果會更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

大家說人臉識別到目前已經解決了很多的問題,已達到99.9%,但我們需要考慮是在什麼條件下,在限制條件下拍攝的人臉,比如說人證合一,這方面已經做出了很好的成績,但是對於非限制條件下拍攝的人臉,甚至是在動態監控下拍攝的人臉,人臉非常模糊,連人都很難認出來的情況下,到底怎麼辦?是不是達到很好的水平?實際上,並沒有。

這樣一個挑戰性的人臉問題,我們不僅要從人臉識別的角度讓它提高,還要從源端做起,在各種各樣條件下做到捕捉到清晰的人臉。如果攝像機沒辦法自己達到這種效果,用普通的相機,再加上圖像增強是不是可以幫忙。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這就談到圖像增強,右邊這個圖是經常發生的事情,當太陽光照過來的時候,有一部分非常暗,有一部分像素都飽和了,大部分人用的HDR的方法,就是寬動態範圍攝像,這種方法在一定程度上可以解決問題,可以看到HDR的圖已經比原始的要好很多,當我們這個場景中出現了運動的人或車,或運動的一些東西的時候,你用這種方法產生的效果就是左下角這種圖,那個火車在動,它上面的字都看不清了,如果是一輛汽車,它的車牌就沒辦法識別了。我們用了智能化動態信息補償的方法,生成右邊這種清晰的圖像。當我們用在CCTV(閉路電視)的相機上,就可以看到左邊和右邊的區別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這個圖像增強包括了怎麼去噪聲,前面的演講嘉賓也談到了,過去有很多很著名的方法,比如有一個很好的去噪聲方法BM3D,它去高斯噪聲非常有效。但泊松噪聲圖像下的去噪是非常難的,因為它的噪聲方差是跟噪聲像素的強度相關,所以過去的方法沒辦法得到很好的效果。最近我們用深度學習CNN和LSTM的方法拿到好的效果,通過主觀和客觀的比較,它在特別嚴重的噪聲條件下有很強的競爭力,可以看到最後這個是我們的結果。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在AI圖像增強方面,我們的相機有去抖動、去霧、去雨、去雪的效果,我在這裡就不一一詳細介紹了。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

以商業價值為導向的算法開發

第二方面就是以商業價值為導向的算法開發。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

澎思的立場——應用驅動的解決方案、商業驅動的算法研究。當我們知道了一個應用的需求、客戶的需求的時候,我們會一起分析,這個需求需要怎樣的解決方案。作為算法來說,我們會分析什麼樣的算法適合這個解決方案。我們的計算機視覺全棧技術都有,但並不是每個技術都適合作為解決方案的。商業上最有價值的方法就是用最有效的算法、最經濟的軟硬件來滿足客戶的剛需。

你看到這個“算法池”的意思是有可選性。這個算法池不像過去那樣做出來是一成不變的,因為現在的深度學習日新月異。所以這就要求算法人員以及把算法放進軟硬件的人員要非常敏感、快速反應。我們的硬件是可編程的,可以把一個很大的算法濃縮在這個小盒子裡面。同樣的盒子,如果覺得成本貴了,我們還可以用低成本的硬件,用比較輕便的算法交給客戶。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

剛才講到了,因為澎思的營銷團隊是在前線工作,瞭解To B、To G客戶的剛需,所以有一個團隊可以把剛需反饋回來,我們的軟硬件算法人員一起討論方案,研究出來最經濟、最靈活的軟硬件平臺,更重要的是我們的人要非常快速反應。

現在的大環境跟過去不同,尤其是做解決方案的,即使是同樣的領域的客戶,但他的要求是不同的。另外,深度學習每天有新的東西出現,去年和今年比,今年的模型就可以比去年快20倍,所以這就要求我們的軟硬件團隊要設計靈活,以適應快速的更新。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

這是我們最近的人臉動態識別,給到客戶那邊,他們做了很多的比較,他們認為我們比友商的性能提高了很多。我們最新的人臉算法,包括輕量級、標準級的,已經交付於我們的軟硬件團隊,融入軟件平臺、硬件設備裡。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個技術我們做的是跨攝像機空間的ReID技術,也叫做行人再識別。當攝像機看不到人臉的時候,我們能看到人的身體,所以會用人身體的特徵來進行再識別。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

在上週我們的再識別在Market1501、DukeMTMC、CUHK03等三個數據庫上的比賽都拿到了第一。這個競爭蠻激烈的,因為很多的公司都在刷這個榜。ReID支持以圖搜圖,一個相機看到一個可疑的人,拍下來了,就可以用這個圖去搜這個人跑到哪裡了,臨近的相機調動起來,馬上就可以找到這個人。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

另外一個以商業價值為導向的算法研發是行人屬性。行人屬性和ReID不一樣,它沒有圖可以搜,但它可以輸入特徵,如“短頭髮,穿著白色上衣、藍色牛仔褲、白色運動鞋,揹著書包的男子”,我們輸入這些特徵,可以從視頻裡面搜索出來,最近我們這方面也獲得了很好的成績。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

關於智能交通方面,我們有車輛、車牌的檢測和識別,不光是在白天,也在晚上達到了很好的精度。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

再談一下超分辨率。很多人做超分辨率可能是為了讓多媒體內容或視頻的噪聲減少,看得更清晰,對於人臉識別,一定的噪聲、一定的清晰還是可以識別出來的。

但對於非常小的人臉,比如說已經小於20×20了,在現在的人臉識別當中就是放棄的,因為太小了。但是我們用了高分辨率,我們可以做到12×12這麼小的像素,也就是說一個相機拍得很遠的一張人臉,我們用了高分辨率的網絡,大家可以看到最右邊的就是輸入,中間就是我們高分辨率網絡的輸出,最右邊是理想的希望達到的水平,也就是真實的樣本。我們進行了大量的實驗,把人臉識別率從75%提升到97%。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

還有3D重建,在這個當中,我們的關鍵技術就是視覺SLAM。我們有做這個的基因,一旦有客戶對我們提出這方面的要求,就能很快把它做出來。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

現在談到視頻結構化,剛才也有人談到這一點,視頻也好,語音也好,要在上面進行數據處理是不可能的,所以一定要視頻結構化。但對我們來講,視頻結構化的優先順序是不一樣的,因為我們有人的卡口、車的卡口,所以對人和車是優先做的。

關於行人,可以看到人有基本的特徵(性別、年齡、頭部是怎麼樣的,有沒有戴眼鏡,他的上裝、下裝是什麼樣的,他的攜帶物,以及行為),我們看到一個視頻,就會把它描述下來,生成這個視頻的Metadata,回頭搜尋的時候就可以做邏輯推理,應用到不同的場景。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

對車輛也是如此。現在學術上都是針對一個任務就有一個模型,多個任務就有多個模型,我們現在要設計一個單一的模型,輸出不同的任務,最重要的是保證性能不下降,還要把這樣的東西放在一個小盒子裡,而不是放在服務器上,所以這也是我們的挑戰。正是因為我們自己設計算法和軟硬件,所以我們可以做的到。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

除了人、車以外,要做城市規劃,做其他方面應用,對場景也非常重視。場景的視頻結構化、時間、地點,這些都是視頻的Metadata,有了它之後你就可以做各種邏輯推理,完成各種任務。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展前瞻

最後這個部分是跟大家一起探討人工智能行業的發展前瞻,也有很多人在擔心人工智能是不是已經到頂峰了、是不是已經開始停滯了。因為計算機資源消耗很多的電能、數據難以獲取,會存在很多障礙。我們一起來探討一下,從2010年以來,計算機視覺取得了飛躍的發展,離不開三大要素。

這三大要素可能很多人都知道,也有人說是四大要素,因為投資的大量的湧入非常重要。

這三大要素,第一是數據-大數據-超大數據。

第二是計算資源,大家看到英偉達的GPU每半年都會更新換代,速度越來越快,顯存越來越大,而且價錢越來越便宜。在昨天的AI芯片會場我們也看到了很多公司在做落地的AI芯片。

第三方面是人工智能開拓者、領頭人,以及在研發行業中耕耘的人員的努力。今年6月份的CVPR上,李飛飛團隊的ImageNet的文章獲得PAMI獎,得到了非常好的肯定,沒有這樣的數據就沒有今天的AlexNet,VGG、GoogleNet、ResNet,我相信每個人都會同意這一點,這樣超大的數據庫訓練的模型,不但用在拍照的圖像上,也可以將它用到醫學圖像。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今年大家也看到了開拓人工智能的三位先驅者都獲得了圖靈獎,肯定了他們對今天的人工智能的飛躍發展起到的作用。

要得到一個很好的視覺模型,不但是視覺的,甚至說語音也是可以的,但它的基本原則是什麼呢?我們認為:一要有足夠的數據,這個數據要平衡。二要有很好的標註,標註中不要有很多噪聲。三是要用足夠深的網絡,這樣就可以訓練出一個魯棒性很好、泛化性很好的模型。

但問題是從哪兒來數據呢?這個數據的標註牽涉到很多的人力、物力和時間,要用很深的網絡,越深的網絡牽涉的計算機資源就越大。剛才我們看到曠視有一個很大的GPU資源來做訓練,這都是問題。計算機資源這一塊我就不談了,大家也知道很多,也在不斷地改進。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

我就談談數據的限制。因為數據的有限性,如果數據不夠,帶來的問題就是魯棒性、泛化性不好,在這個數據上訓練的東西不可以輕易地用在另外的場景,或者用在上面的性能會大幅地下降。但是我們想一下,傅里葉變換這個無限的表達公式是完美的,但是當它用在硬件的時候,我們的硬件是有限的,所以也需要有限的東西來表達無限的。比如說用8×8DCT來做圖像跟視頻的壓縮,也會發現它在很多場合下產生類似魯棒性的問題,所以這應該不是一個問題。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

如何解決大量數據的生成和標註,以及數據的長尾問題呢?除了我們每個人都知道的數據採集、人工標註,當然現在又出現了很多很好的標註工具輔助我們。最近我們也看到了很多人用GAN來生成數據,如做ReID、人群估計,有很多的場景可以用GAN來生成。

有人也用虛擬模擬軟件Simulator,我們知道做自動駕駛的,沒辦法去採集一些數據。比如要採集下雨的數據,要等到雨天開車出去;要採集下雪的數據,要等到冬天下雪的時候出去;要採集危險的數據,怎麼去採集呢?用虛擬的模擬軟件Simulator,採集不同場合下、不同情形下的數據。但是有人會問,採集下來的數據與現實的差別很遠,有人也會用GAN來把虛擬的數據轉成更接近現實的數據。也有人用環境互動的方式、強化學習的方式生成數據,有的會用多種模型、多種模態來半自動地生產數據。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

隨著大量數據的生成,半監督、無監督學習的方法有所突破,我相信計算機視覺的未來發展是非常樂觀的。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

人工智能行業的發展,我個人認為還沒到巔峰,我相信大部分在座的人也會同意這個觀點,尤其是還有很多的落地機會,我們的學術總是走在前面的,落地還有很長的時間。

作為工業界的我們,就要考慮實際情況,怎麼樣來做遷移學習,怎麼樣剪枝優化壓縮。還有更重要的就是在現有環境中去思考、去開拓新的AI應用,多去想一想、嘗試一下AI能為我們做什麼。剛才也有很多人談到了這個時代。我覺得IoT時代,從互聯網時代開始,給我們帶來了很多遊戲規則的變化,比如一個公司不擁有酒店,但它可以做酒店的生意,那是什麼公司呢?Airbnb。你沒有車,可以做車輛有關的業務,那就是Uber、滴滴,在新加坡是Grab,你沒有商店,可以賣東西,早上我聽了阿里的介紹,我也是很有感觸。IoT的時代造就了那麼多的公司,遊戲規則的變化。現在是人工智能的時代,再加上IoT,還會讓更多這樣的公司出現。

所以大家都帶著這種思考,嘗試一下AI能為我們做什麼。還有就是你們可以在自己的環境當中蒐集、建立數據集,因為很多的現象,過去有人嘗試用公式把它表達出來,但是很多現象是沒有辦法用公式表達的。但是你有數據集,可以收集數據,標註、訓練模型,從而發現它們內在的關係,然後可以制定決策,這ye包括經濟的決策、金融的決策,DNA方面的研發,這些都可以去探討,從你挖掘數據中探討它們的內在關係。

另一方面可以建立強化學習、遞增學習的商業環境去訓練挖掘。

在人工智能方面還有很多的空間可以做,比如我們說到監控相機對物體的檢測或識別是要理解看到了什麼,,但是研究機器人就不僅僅要知道看到了什麼,它還要採取行動。所以不僅僅是理解,還有決策,反饋再決策。所以這個強化學習是很重要的。DeepMind很成功,你看到他們很多的人工智能的開發都在遊戲方面,真正把它用在機器人的實際操作方面,你會發現還有很多的問題,這裡面有很多的空白大家可以做。你在機器人的大會上,看到那些疊衣服的機器人,你看了以後覺得不錯,但是那個速度超慢,你不會覺得它能代替人。因為商業價值不在那裡,這就是人工智能的空缺,我們還有很多東西可以去做。最後一點就是我們要打造靈活的軟硬件、AI平臺,讓它的落地做得更好。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

最後講一下澎思新加坡研究院,它在澎思科技主要承擔兩方面的任務,第一是做垂直領域技術的開發,最重要強調快速,能夠有工業級研發的交付能力,結合公司的發展方向做創新。第二是要做前沿科技的探索和儲備。我們在新加坡這個窗口,直接接軌全世界,我們又帶著全球的視角來探索前沿科技,並且我們要非常敏感,要很快在我們這邊研發一些突破性的技術,讓我們公司在新的領域、新的業務當中有一些大展手腳的機會。

澎思科技申省梅:後深度學習時代的智能視覺技術落地 | CCF-GAIR 2019

今天我就這裡,謝謝大家。雷鋒網雷鋒網雷鋒網

"

相關推薦

推薦中...