'中科院提出人群密度檢測算法 DSNet,準確率提升 30%'

"
點擊底部“瞭解更多” 閱讀全文
計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網絡:DSNet。該網絡的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。論文還介紹了一種新的多尺度密度水平一致性損失,提升了網絡的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的迴歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網絡(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景噪聲和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網絡。這些架構一般由 CNN 的幾個列或主幹網絡不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網絡能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網絡能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

"
點擊底部“瞭解更多” 閱讀全文
計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網絡:DSNet。該網絡的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。論文還介紹了一種新的多尺度密度水平一致性損失,提升了網絡的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的迴歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網絡(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景噪聲和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網絡。這些架構一般由 CNN 的幾個列或主幹網絡不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網絡能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網絡能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 1 群體計數數據集中存在較大的尺度變化。左:Shanghai Tech 中輸入圖像和對應的真實密度圖。右:UCF-QNRF 數據集中輸入圖像和對應的真實密度圖。

本文提出了一種新的密集尺度單欄神經網絡——DSNet,用於群體計數。DSNET 由密集連接的擴張卷積塊組成,因此它可以輸出具有不同感受野的特徵,並且捕獲不同尺度的人群信息。DSNet 的卷積塊與 DenseASPP 結構相似,但具有不同的擴張率組合。作者為塊內的層仔細選擇這些比率,這樣每個塊對連續變化的尺度進行更密集的採樣。同時,所選擇的擴張率組合可以利用感受野的所有像素進行特徵計算,防止網格化效果。為了進一步提高 DSNet 捕獲的尺度多樣性,作者堆疊了三個密集擴張卷積塊,並利用殘差連接(residual connection)進行密集連接。最終的網絡能夠以更密集的方式對非常大的尺度變化範圍進行採樣,從而能夠處理群體計數中尺度變化較大的問題。

以前大多數方法使用傳統的歐幾里德損失(Euclidean loss)訓練網絡,這是基於像素獨立性的假設。這種損失忽略了密度圖的全局和局部一致性,會影響群體計數的結果。為了解決這一問題,作者提出了多尺度密度水平一致性損失,用於保證估計的人群密度圖和真實人群密度圖之間的全局和局部的密度水平保持一致。

論文貢獻

* 提出了密集擴張卷積塊(DDCB),其擴張率是仔細選擇的。DDCB 能夠對連續變化的尺度進行密集採樣。DSNet 可以進行端到端的訓練,並且可以處理擁擠和稀疏的人群圖像。* 引入了多尺度密度水平一致性損失,以提高模型表現。該損失加強了估測密度圖和真實密度圖之間的全局和局部一致性。* 作者在四個具有挑戰性的公開群體統計數據集上進行了廣泛的實驗。與現有的最先進方法相比,該方法獲得了最佳性能。在 UCF-QNRF 和 UCF_CC_50 數據集上的計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上的計數準確率提高了 20%。

2 DSNet

該方法基本思想是一個端到端的單列 CNN,具有更密集的尺度多樣性,以應對密集和稀疏場景中的大的尺度變化和密度水平差異。DSNET 的體系結構如圖 2 所示。

"
點擊底部“瞭解更多” 閱讀全文
計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網絡:DSNet。該網絡的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。論文還介紹了一種新的多尺度密度水平一致性損失,提升了網絡的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的迴歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網絡(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景噪聲和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網絡。這些架構一般由 CNN 的幾個列或主幹網絡不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網絡能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網絡能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 1 群體計數數據集中存在較大的尺度變化。左:Shanghai Tech 中輸入圖像和對應的真實密度圖。右:UCF-QNRF 數據集中輸入圖像和對應的真實密度圖。

本文提出了一種新的密集尺度單欄神經網絡——DSNet,用於群體計數。DSNET 由密集連接的擴張卷積塊組成,因此它可以輸出具有不同感受野的特徵,並且捕獲不同尺度的人群信息。DSNet 的卷積塊與 DenseASPP 結構相似,但具有不同的擴張率組合。作者為塊內的層仔細選擇這些比率,這樣每個塊對連續變化的尺度進行更密集的採樣。同時,所選擇的擴張率組合可以利用感受野的所有像素進行特徵計算,防止網格化效果。為了進一步提高 DSNet 捕獲的尺度多樣性,作者堆疊了三個密集擴張卷積塊,並利用殘差連接(residual connection)進行密集連接。最終的網絡能夠以更密集的方式對非常大的尺度變化範圍進行採樣,從而能夠處理群體計數中尺度變化較大的問題。

以前大多數方法使用傳統的歐幾里德損失(Euclidean loss)訓練網絡,這是基於像素獨立性的假設。這種損失忽略了密度圖的全局和局部一致性,會影響群體計數的結果。為了解決這一問題,作者提出了多尺度密度水平一致性損失,用於保證估計的人群密度圖和真實人群密度圖之間的全局和局部的密度水平保持一致。

論文貢獻

* 提出了密集擴張卷積塊(DDCB),其擴張率是仔細選擇的。DDCB 能夠對連續變化的尺度進行密集採樣。DSNet 可以進行端到端的訓練,並且可以處理擁擠和稀疏的人群圖像。* 引入了多尺度密度水平一致性損失,以提高模型表現。該損失加強了估測密度圖和真實密度圖之間的全局和局部一致性。* 作者在四個具有挑戰性的公開群體統計數據集上進行了廣泛的實驗。與現有的最先進方法相比,該方法獲得了最佳性能。在 UCF-QNRF 和 UCF_CC_50 數據集上的計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上的計數準確率提高了 20%。

2 DSNet

該方法基本思想是一個端到端的單列 CNN,具有更密集的尺度多樣性,以應對密集和稀疏場景中的大的尺度變化和密度水平差異。DSNET 的體系結構如圖 2 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


2.1 DSNet 結構

我們提出的 DSNET 包含主幹網絡作為特徵提取器,三個密集的擴張卷積塊,由密集殘差連接堆疊,擴大了尺度多樣性,以及三個卷積層,用於人群密度圖迴歸。

主幹網絡

本文所用的主幹網絡為 VGG-16 的前十層,以及三個池化層。經驗表明,在多列網絡中,使用內核較小但層數較多的卷積層比內核更大但層數更少的卷積層更有效。此外,它還實現了準確率與計算量之間的最佳權衡,適用於準確、快速的人群計數。

密集擴張卷積塊(Dense dilated convolution block,DDCB)

為了應對尺度變化的挑戰,需要一種能夠以儘可能密集的方式捕獲大範圍尺度變化的網絡架構。本文提出了一種新的密集擴張卷積塊,它包含三個擴張卷積層,其擴張率為 1,2,3。這種設置可以保留來自更密集尺度的信息,並且感受野尺寸差距較小。區塊內的每個擴張層與其他層緊密相連,因此每個層都可以訪問所有後續層,並傳遞需要保留的信息。密集連接後,獲得的尺度多樣性增加,如圖 3 所示。

"
點擊底部“瞭解更多” 閱讀全文
計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網絡:DSNet。該網絡的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。論文還介紹了一種新的多尺度密度水平一致性損失,提升了網絡的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的迴歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網絡(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景噪聲和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網絡。這些架構一般由 CNN 的幾個列或主幹網絡不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網絡能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網絡能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 1 群體計數數據集中存在較大的尺度變化。左:Shanghai Tech 中輸入圖像和對應的真實密度圖。右:UCF-QNRF 數據集中輸入圖像和對應的真實密度圖。

本文提出了一種新的密集尺度單欄神經網絡——DSNet,用於群體計數。DSNET 由密集連接的擴張卷積塊組成,因此它可以輸出具有不同感受野的特徵,並且捕獲不同尺度的人群信息。DSNet 的卷積塊與 DenseASPP 結構相似,但具有不同的擴張率組合。作者為塊內的層仔細選擇這些比率,這樣每個塊對連續變化的尺度進行更密集的採樣。同時,所選擇的擴張率組合可以利用感受野的所有像素進行特徵計算,防止網格化效果。為了進一步提高 DSNet 捕獲的尺度多樣性,作者堆疊了三個密集擴張卷積塊,並利用殘差連接(residual connection)進行密集連接。最終的網絡能夠以更密集的方式對非常大的尺度變化範圍進行採樣,從而能夠處理群體計數中尺度變化較大的問題。

以前大多數方法使用傳統的歐幾里德損失(Euclidean loss)訓練網絡,這是基於像素獨立性的假設。這種損失忽略了密度圖的全局和局部一致性,會影響群體計數的結果。為了解決這一問題,作者提出了多尺度密度水平一致性損失,用於保證估計的人群密度圖和真實人群密度圖之間的全局和局部的密度水平保持一致。

論文貢獻

* 提出了密集擴張卷積塊(DDCB),其擴張率是仔細選擇的。DDCB 能夠對連續變化的尺度進行密集採樣。DSNet 可以進行端到端的訓練,並且可以處理擁擠和稀疏的人群圖像。* 引入了多尺度密度水平一致性損失,以提高模型表現。該損失加強了估測密度圖和真實密度圖之間的全局和局部一致性。* 作者在四個具有挑戰性的公開群體統計數據集上進行了廣泛的實驗。與現有的最先進方法相比,該方法獲得了最佳性能。在 UCF-QNRF 和 UCF_CC_50 數據集上的計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上的計數準確率提高了 20%。

2 DSNet

該方法基本思想是一個端到端的單列 CNN,具有更密集的尺度多樣性,以應對密集和稀疏場景中的大的尺度變化和密度水平差異。DSNET 的體系結構如圖 2 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


2.1 DSNet 結構

我們提出的 DSNET 包含主幹網絡作為特徵提取器,三個密集的擴張卷積塊,由密集殘差連接堆疊,擴大了尺度多樣性,以及三個卷積層,用於人群密度圖迴歸。

主幹網絡

本文所用的主幹網絡為 VGG-16 的前十層,以及三個池化層。經驗表明,在多列網絡中,使用內核較小但層數較多的卷積層比內核更大但層數更少的卷積層更有效。此外,它還實現了準確率與計算量之間的最佳權衡,適用於準確、快速的人群計數。

密集擴張卷積塊(Dense dilated convolution block,DDCB)

為了應對尺度變化的挑戰,需要一種能夠以儘可能密集的方式捕獲大範圍尺度變化的網絡架構。本文提出了一種新的密集擴張卷積塊,它包含三個擴張卷積層,其擴張率為 1,2,3。這種設置可以保留來自更密集尺度的信息,並且感受野尺寸差距較小。區塊內的每個擴張層與其他層緊密相連,因此每個層都可以訪問所有後續層,並傳遞需要保留的信息。密集連接後,獲得的尺度多樣性增加,如圖 3 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 3 DDCB 尺度多樣性與密集堆疊的擴張卷積中擴張率(1,2,3)的設置相對應。k 表示相應組合的感受野大小。

精心選擇膨脹率的另一個優點是,它可以克服網格化效果。如圖 4 所示,擴張率為 6 的擴脹卷積層位於擴張率為 3 的擴張卷積層下方。在一維情況下,經過這兩層之後,一個像素的最終結果只能從 7 個像素中獲得信息。當輸入數據是二維時,這種現象會變得更糟。因此,最終像素只能以網格方式查看原始信息,並丟失大部分(86.4%)信息。由於原始特徵圖的局部信息完全丟失,並且由於擴張率大,信息在大距離內可能不相關,這不利於群體計數中捕獲詳細特徵。通過採用新的擴張率組合,頂層可以覆蓋原始特徵圖的所有像素信息,避免中間層擴張率過大造成的大距離無關信息。這對於人群計數的準確性至關重要。

"
點擊底部“瞭解更多” 閱讀全文
計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網絡:DSNet。該網絡的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。論文還介紹了一種新的多尺度密度水平一致性損失,提升了網絡的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的迴歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網絡(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景噪聲和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網絡。這些架構一般由 CNN 的幾個列或主幹網絡不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網絡能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網絡能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 1 群體計數數據集中存在較大的尺度變化。左:Shanghai Tech 中輸入圖像和對應的真實密度圖。右:UCF-QNRF 數據集中輸入圖像和對應的真實密度圖。

本文提出了一種新的密集尺度單欄神經網絡——DSNet,用於群體計數。DSNET 由密集連接的擴張卷積塊組成,因此它可以輸出具有不同感受野的特徵,並且捕獲不同尺度的人群信息。DSNet 的卷積塊與 DenseASPP 結構相似,但具有不同的擴張率組合。作者為塊內的層仔細選擇這些比率,這樣每個塊對連續變化的尺度進行更密集的採樣。同時,所選擇的擴張率組合可以利用感受野的所有像素進行特徵計算,防止網格化效果。為了進一步提高 DSNet 捕獲的尺度多樣性,作者堆疊了三個密集擴張卷積塊,並利用殘差連接(residual connection)進行密集連接。最終的網絡能夠以更密集的方式對非常大的尺度變化範圍進行採樣,從而能夠處理群體計數中尺度變化較大的問題。

以前大多數方法使用傳統的歐幾里德損失(Euclidean loss)訓練網絡,這是基於像素獨立性的假設。這種損失忽略了密度圖的全局和局部一致性,會影響群體計數的結果。為了解決這一問題,作者提出了多尺度密度水平一致性損失,用於保證估計的人群密度圖和真實人群密度圖之間的全局和局部的密度水平保持一致。

論文貢獻

* 提出了密集擴張卷積塊(DDCB),其擴張率是仔細選擇的。DDCB 能夠對連續變化的尺度進行密集採樣。DSNet 可以進行端到端的訓練,並且可以處理擁擠和稀疏的人群圖像。* 引入了多尺度密度水平一致性損失,以提高模型表現。該損失加強了估測密度圖和真實密度圖之間的全局和局部一致性。* 作者在四個具有挑戰性的公開群體統計數據集上進行了廣泛的實驗。與現有的最先進方法相比,該方法獲得了最佳性能。在 UCF-QNRF 和 UCF_CC_50 數據集上的計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上的計數準確率提高了 20%。

2 DSNet

該方法基本思想是一個端到端的單列 CNN,具有更密集的尺度多樣性,以應對密集和稀疏場景中的大的尺度變化和密度水平差異。DSNET 的體系結構如圖 2 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


2.1 DSNet 結構

我們提出的 DSNET 包含主幹網絡作為特徵提取器,三個密集的擴張卷積塊,由密集殘差連接堆疊,擴大了尺度多樣性,以及三個卷積層,用於人群密度圖迴歸。

主幹網絡

本文所用的主幹網絡為 VGG-16 的前十層,以及三個池化層。經驗表明,在多列網絡中,使用內核較小但層數較多的卷積層比內核更大但層數更少的卷積層更有效。此外,它還實現了準確率與計算量之間的最佳權衡,適用於準確、快速的人群計數。

密集擴張卷積塊(Dense dilated convolution block,DDCB)

為了應對尺度變化的挑戰,需要一種能夠以儘可能密集的方式捕獲大範圍尺度變化的網絡架構。本文提出了一種新的密集擴張卷積塊,它包含三個擴張卷積層,其擴張率為 1,2,3。這種設置可以保留來自更密集尺度的信息,並且感受野尺寸差距較小。區塊內的每個擴張層與其他層緊密相連,因此每個層都可以訪問所有後續層,並傳遞需要保留的信息。密集連接後,獲得的尺度多樣性增加,如圖 3 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 3 DDCB 尺度多樣性與密集堆疊的擴張卷積中擴張率(1,2,3)的設置相對應。k 表示相應組合的感受野大小。

精心選擇膨脹率的另一個優點是,它可以克服網格化效果。如圖 4 所示,擴張率為 6 的擴脹卷積層位於擴張率為 3 的擴張卷積層下方。在一維情況下,經過這兩層之後,一個像素的最終結果只能從 7 個像素中獲得信息。當輸入數據是二維時,這種現象會變得更糟。因此,最終像素只能以網格方式查看原始信息,並丟失大部分(86.4%)信息。由於原始特徵圖的局部信息完全丟失,並且由於擴張率大,信息在大距離內可能不相關,這不利於群體計數中捕獲詳細特徵。通過採用新的擴張率組合,頂層可以覆蓋原始特徵圖的所有像素信息,避免中間層擴張率過大造成的大距離無關信息。這對於人群計數的準確性至關重要。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


密集殘差連接(Dense residual connection,DRC)

雖然 DDCB 提供了密集尺度多樣性,但不同塊之間的層次特徵沒有得到充分利用。因此,作者通過密集的殘差連接來改進體系結構,以進一步改進信息流。此外,與傳統的密集連接相比,它們還可以防止網絡變得更寬。這樣,DDCB 的輸出可以直接訪問後續 DDCB 的每一層,從而實現連續的信息傳遞。與普通的殘差連接相比,進一步擴大了尺度多樣性,並在信息流過程中自適應地保留了適合特定場景的特徵。

2.2 損失函數

以往的研究大多使用歐幾里得距離損失作為群體計數的損失函數,它只考慮像素誤差,而忽略了估計密度圖和真實密度圖之間的全局和局部相關性。在本文中,作者將多尺度密度水平一致性損失與歐幾里得損失結合起來,衡量全局和局部的一致性。

歐幾里得損失

歐幾里得距離用於測量估計密度圖與真實值之間像素級的估計誤差。損失函數定義如下:

"
點擊底部“瞭解更多” 閱讀全文
計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網絡:DSNet。該網絡的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。論文還介紹了一種新的多尺度密度水平一致性損失,提升了網絡的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的迴歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網絡(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景噪聲和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網絡。這些架構一般由 CNN 的幾個列或主幹網絡不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網絡能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網絡能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 1 群體計數數據集中存在較大的尺度變化。左:Shanghai Tech 中輸入圖像和對應的真實密度圖。右:UCF-QNRF 數據集中輸入圖像和對應的真實密度圖。

本文提出了一種新的密集尺度單欄神經網絡——DSNet,用於群體計數。DSNET 由密集連接的擴張卷積塊組成,因此它可以輸出具有不同感受野的特徵,並且捕獲不同尺度的人群信息。DSNet 的卷積塊與 DenseASPP 結構相似,但具有不同的擴張率組合。作者為塊內的層仔細選擇這些比率,這樣每個塊對連續變化的尺度進行更密集的採樣。同時,所選擇的擴張率組合可以利用感受野的所有像素進行特徵計算,防止網格化效果。為了進一步提高 DSNet 捕獲的尺度多樣性,作者堆疊了三個密集擴張卷積塊,並利用殘差連接(residual connection)進行密集連接。最終的網絡能夠以更密集的方式對非常大的尺度變化範圍進行採樣,從而能夠處理群體計數中尺度變化較大的問題。

以前大多數方法使用傳統的歐幾里德損失(Euclidean loss)訓練網絡,這是基於像素獨立性的假設。這種損失忽略了密度圖的全局和局部一致性,會影響群體計數的結果。為了解決這一問題,作者提出了多尺度密度水平一致性損失,用於保證估計的人群密度圖和真實人群密度圖之間的全局和局部的密度水平保持一致。

論文貢獻

* 提出了密集擴張卷積塊(DDCB),其擴張率是仔細選擇的。DDCB 能夠對連續變化的尺度進行密集採樣。DSNet 可以進行端到端的訓練,並且可以處理擁擠和稀疏的人群圖像。* 引入了多尺度密度水平一致性損失,以提高模型表現。該損失加強了估測密度圖和真實密度圖之間的全局和局部一致性。* 作者在四個具有挑戰性的公開群體統計數據集上進行了廣泛的實驗。與現有的最先進方法相比,該方法獲得了最佳性能。在 UCF-QNRF 和 UCF_CC_50 數據集上的計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上的計數準確率提高了 20%。

2 DSNet

該方法基本思想是一個端到端的單列 CNN,具有更密集的尺度多樣性,以應對密集和稀疏場景中的大的尺度變化和密度水平差異。DSNET 的體系結構如圖 2 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


2.1 DSNet 結構

我們提出的 DSNET 包含主幹網絡作為特徵提取器,三個密集的擴張卷積塊,由密集殘差連接堆疊,擴大了尺度多樣性,以及三個卷積層,用於人群密度圖迴歸。

主幹網絡

本文所用的主幹網絡為 VGG-16 的前十層,以及三個池化層。經驗表明,在多列網絡中,使用內核較小但層數較多的卷積層比內核更大但層數更少的卷積層更有效。此外,它還實現了準確率與計算量之間的最佳權衡,適用於準確、快速的人群計數。

密集擴張卷積塊(Dense dilated convolution block,DDCB)

為了應對尺度變化的挑戰,需要一種能夠以儘可能密集的方式捕獲大範圍尺度變化的網絡架構。本文提出了一種新的密集擴張卷積塊,它包含三個擴張卷積層,其擴張率為 1,2,3。這種設置可以保留來自更密集尺度的信息,並且感受野尺寸差距較小。區塊內的每個擴張層與其他層緊密相連,因此每個層都可以訪問所有後續層,並傳遞需要保留的信息。密集連接後,獲得的尺度多樣性增加,如圖 3 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 3 DDCB 尺度多樣性與密集堆疊的擴張卷積中擴張率(1,2,3)的設置相對應。k 表示相應組合的感受野大小。

精心選擇膨脹率的另一個優點是,它可以克服網格化效果。如圖 4 所示,擴張率為 6 的擴脹卷積層位於擴張率為 3 的擴張卷積層下方。在一維情況下,經過這兩層之後,一個像素的最終結果只能從 7 個像素中獲得信息。當輸入數據是二維時,這種現象會變得更糟。因此,最終像素只能以網格方式查看原始信息,並丟失大部分(86.4%)信息。由於原始特徵圖的局部信息完全丟失,並且由於擴張率大,信息在大距離內可能不相關,這不利於群體計數中捕獲詳細特徵。通過採用新的擴張率組合,頂層可以覆蓋原始特徵圖的所有像素信息,避免中間層擴張率過大造成的大距離無關信息。這對於人群計數的準確性至關重要。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


密集殘差連接(Dense residual connection,DRC)

雖然 DDCB 提供了密集尺度多樣性,但不同塊之間的層次特徵沒有得到充分利用。因此,作者通過密集的殘差連接來改進體系結構,以進一步改進信息流。此外,與傳統的密集連接相比,它們還可以防止網絡變得更寬。這樣,DDCB 的輸出可以直接訪問後續 DDCB 的每一層,從而實現連續的信息傳遞。與普通的殘差連接相比,進一步擴大了尺度多樣性,並在信息流過程中自適應地保留了適合特定場景的特徵。

2.2 損失函數

以往的研究大多使用歐幾里得距離損失作為群體計數的損失函數,它只考慮像素誤差,而忽略了估計密度圖和真實密度圖之間的全局和局部相關性。在本文中,作者將多尺度密度水平一致性損失與歐幾里得損失結合起來,衡量全局和局部的一致性。

歐幾里得損失

歐幾里得距離用於測量估計密度圖與真實值之間像素級的估計誤差。損失函數定義如下:

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


其中 N 是一個 batch 中圖像的數目,G(Xi;θ) 是訓練圖像 Xi 的估測密度圖,參數為θ。D 是 Xi 的實際密度圖。

多尺度密度水平一致性損失

除了像素級損失函數外,作者還考慮了估計密度圖和真實值之間的全局和局部密度水平一致性。新提出的訓練損失定義為:

"
點擊底部“瞭解更多” 閱讀全文
計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網絡:DSNet。該網絡的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。論文還介紹了一種新的多尺度密度水平一致性損失,提升了網絡的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的迴歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網絡(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景噪聲和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網絡。這些架構一般由 CNN 的幾個列或主幹網絡不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網絡能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網絡能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 1 群體計數數據集中存在較大的尺度變化。左:Shanghai Tech 中輸入圖像和對應的真實密度圖。右:UCF-QNRF 數據集中輸入圖像和對應的真實密度圖。

本文提出了一種新的密集尺度單欄神經網絡——DSNet,用於群體計數。DSNET 由密集連接的擴張卷積塊組成,因此它可以輸出具有不同感受野的特徵,並且捕獲不同尺度的人群信息。DSNet 的卷積塊與 DenseASPP 結構相似,但具有不同的擴張率組合。作者為塊內的層仔細選擇這些比率,這樣每個塊對連續變化的尺度進行更密集的採樣。同時,所選擇的擴張率組合可以利用感受野的所有像素進行特徵計算,防止網格化效果。為了進一步提高 DSNet 捕獲的尺度多樣性,作者堆疊了三個密集擴張卷積塊,並利用殘差連接(residual connection)進行密集連接。最終的網絡能夠以更密集的方式對非常大的尺度變化範圍進行採樣,從而能夠處理群體計數中尺度變化較大的問題。

以前大多數方法使用傳統的歐幾里德損失(Euclidean loss)訓練網絡,這是基於像素獨立性的假設。這種損失忽略了密度圖的全局和局部一致性,會影響群體計數的結果。為了解決這一問題,作者提出了多尺度密度水平一致性損失,用於保證估計的人群密度圖和真實人群密度圖之間的全局和局部的密度水平保持一致。

論文貢獻

* 提出了密集擴張卷積塊(DDCB),其擴張率是仔細選擇的。DDCB 能夠對連續變化的尺度進行密集採樣。DSNet 可以進行端到端的訓練,並且可以處理擁擠和稀疏的人群圖像。* 引入了多尺度密度水平一致性損失,以提高模型表現。該損失加強了估測密度圖和真實密度圖之間的全局和局部一致性。* 作者在四個具有挑戰性的公開群體統計數據集上進行了廣泛的實驗。與現有的最先進方法相比,該方法獲得了最佳性能。在 UCF-QNRF 和 UCF_CC_50 數據集上的計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上的計數準確率提高了 20%。

2 DSNet

該方法基本思想是一個端到端的單列 CNN,具有更密集的尺度多樣性,以應對密集和稀疏場景中的大的尺度變化和密度水平差異。DSNET 的體系結構如圖 2 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


2.1 DSNet 結構

我們提出的 DSNET 包含主幹網絡作為特徵提取器,三個密集的擴張卷積塊,由密集殘差連接堆疊,擴大了尺度多樣性,以及三個卷積層,用於人群密度圖迴歸。

主幹網絡

本文所用的主幹網絡為 VGG-16 的前十層,以及三個池化層。經驗表明,在多列網絡中,使用內核較小但層數較多的卷積層比內核更大但層數更少的卷積層更有效。此外,它還實現了準確率與計算量之間的最佳權衡,適用於準確、快速的人群計數。

密集擴張卷積塊(Dense dilated convolution block,DDCB)

為了應對尺度變化的挑戰,需要一種能夠以儘可能密集的方式捕獲大範圍尺度變化的網絡架構。本文提出了一種新的密集擴張卷積塊,它包含三個擴張卷積層,其擴張率為 1,2,3。這種設置可以保留來自更密集尺度的信息,並且感受野尺寸差距較小。區塊內的每個擴張層與其他層緊密相連,因此每個層都可以訪問所有後續層,並傳遞需要保留的信息。密集連接後,獲得的尺度多樣性增加,如圖 3 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 3 DDCB 尺度多樣性與密集堆疊的擴張卷積中擴張率(1,2,3)的設置相對應。k 表示相應組合的感受野大小。

精心選擇膨脹率的另一個優點是,它可以克服網格化效果。如圖 4 所示,擴張率為 6 的擴脹卷積層位於擴張率為 3 的擴張卷積層下方。在一維情況下,經過這兩層之後,一個像素的最終結果只能從 7 個像素中獲得信息。當輸入數據是二維時,這種現象會變得更糟。因此,最終像素只能以網格方式查看原始信息,並丟失大部分(86.4%)信息。由於原始特徵圖的局部信息完全丟失,並且由於擴張率大,信息在大距離內可能不相關,這不利於群體計數中捕獲詳細特徵。通過採用新的擴張率組合,頂層可以覆蓋原始特徵圖的所有像素信息,避免中間層擴張率過大造成的大距離無關信息。這對於人群計數的準確性至關重要。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


密集殘差連接(Dense residual connection,DRC)

雖然 DDCB 提供了密集尺度多樣性,但不同塊之間的層次特徵沒有得到充分利用。因此,作者通過密集的殘差連接來改進體系結構,以進一步改進信息流。此外,與傳統的密集連接相比,它們還可以防止網絡變得更寬。這樣,DDCB 的輸出可以直接訪問後續 DDCB 的每一層,從而實現連續的信息傳遞。與普通的殘差連接相比,進一步擴大了尺度多樣性,並在信息流過程中自適應地保留了適合特定場景的特徵。

2.2 損失函數

以往的研究大多使用歐幾里得距離損失作為群體計數的損失函數,它只考慮像素誤差,而忽略了估計密度圖和真實密度圖之間的全局和局部相關性。在本文中,作者將多尺度密度水平一致性損失與歐幾里得損失結合起來,衡量全局和局部的一致性。

歐幾里得損失

歐幾里得距離用於測量估計密度圖與真實值之間像素級的估計誤差。損失函數定義如下:

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


其中 N 是一個 batch 中圖像的數目,G(Xi;θ) 是訓練圖像 Xi 的估測密度圖,參數為θ。D 是 Xi 的實際密度圖。

多尺度密度水平一致性損失

除了像素級損失函數外,作者還考慮了估計密度圖和真實值之間的全局和局部密度水平一致性。新提出的訓練損失定義為:

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


其中 s 是用於一致性檢查的尺度級別數,P 是平均池化操作,kj 為平均池化的指定輸出大小。

尺度級別將密度圖分割成不同的子區域,並形成池化表示,說明不同位置的人群密度級別。根據密度水平的上下文,在不同的尺度上,估計的密度圖需要與實際情況保持一致。此外,尺度級別的數量和特定尺度的輸出尺寸控制著訓練速度和估計精度之間的權衡。作者採用三個尺度級別,每個輸出尺寸分別為 1×1、2×2 和 4×4。輸出大小為 1×1 的第一個尺度級別捕獲密度水平的全局特徵,而其他兩個尺度級別表示圖像塊的局部密度水平。

最終目標函數

通過對上述兩個損失函數加權求和,整個網絡使用以下目標函數進行訓練:

"
點擊底部“瞭解更多” 閱讀全文
計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網絡:DSNet。該網絡的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。論文還介紹了一種新的多尺度密度水平一致性損失,提升了網絡的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的迴歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網絡(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景噪聲和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網絡。這些架構一般由 CNN 的幾個列或主幹網絡不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網絡能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網絡能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 1 群體計數數據集中存在較大的尺度變化。左:Shanghai Tech 中輸入圖像和對應的真實密度圖。右:UCF-QNRF 數據集中輸入圖像和對應的真實密度圖。

本文提出了一種新的密集尺度單欄神經網絡——DSNet,用於群體計數。DSNET 由密集連接的擴張卷積塊組成,因此它可以輸出具有不同感受野的特徵,並且捕獲不同尺度的人群信息。DSNet 的卷積塊與 DenseASPP 結構相似,但具有不同的擴張率組合。作者為塊內的層仔細選擇這些比率,這樣每個塊對連續變化的尺度進行更密集的採樣。同時,所選擇的擴張率組合可以利用感受野的所有像素進行特徵計算,防止網格化效果。為了進一步提高 DSNet 捕獲的尺度多樣性,作者堆疊了三個密集擴張卷積塊,並利用殘差連接(residual connection)進行密集連接。最終的網絡能夠以更密集的方式對非常大的尺度變化範圍進行採樣,從而能夠處理群體計數中尺度變化較大的問題。

以前大多數方法使用傳統的歐幾里德損失(Euclidean loss)訓練網絡,這是基於像素獨立性的假設。這種損失忽略了密度圖的全局和局部一致性,會影響群體計數的結果。為了解決這一問題,作者提出了多尺度密度水平一致性損失,用於保證估計的人群密度圖和真實人群密度圖之間的全局和局部的密度水平保持一致。

論文貢獻

* 提出了密集擴張卷積塊(DDCB),其擴張率是仔細選擇的。DDCB 能夠對連續變化的尺度進行密集採樣。DSNet 可以進行端到端的訓練,並且可以處理擁擠和稀疏的人群圖像。* 引入了多尺度密度水平一致性損失,以提高模型表現。該損失加強了估測密度圖和真實密度圖之間的全局和局部一致性。* 作者在四個具有挑戰性的公開群體統計數據集上進行了廣泛的實驗。與現有的最先進方法相比,該方法獲得了最佳性能。在 UCF-QNRF 和 UCF_CC_50 數據集上的計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上的計數準確率提高了 20%。

2 DSNet

該方法基本思想是一個端到端的單列 CNN,具有更密集的尺度多樣性,以應對密集和稀疏場景中的大的尺度變化和密度水平差異。DSNET 的體系結構如圖 2 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


2.1 DSNet 結構

我們提出的 DSNET 包含主幹網絡作為特徵提取器,三個密集的擴張卷積塊,由密集殘差連接堆疊,擴大了尺度多樣性,以及三個卷積層,用於人群密度圖迴歸。

主幹網絡

本文所用的主幹網絡為 VGG-16 的前十層,以及三個池化層。經驗表明,在多列網絡中,使用內核較小但層數較多的卷積層比內核更大但層數更少的卷積層更有效。此外,它還實現了準確率與計算量之間的最佳權衡,適用於準確、快速的人群計數。

密集擴張卷積塊(Dense dilated convolution block,DDCB)

為了應對尺度變化的挑戰,需要一種能夠以儘可能密集的方式捕獲大範圍尺度變化的網絡架構。本文提出了一種新的密集擴張卷積塊,它包含三個擴張卷積層,其擴張率為 1,2,3。這種設置可以保留來自更密集尺度的信息,並且感受野尺寸差距較小。區塊內的每個擴張層與其他層緊密相連,因此每個層都可以訪問所有後續層,並傳遞需要保留的信息。密集連接後,獲得的尺度多樣性增加,如圖 3 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 3 DDCB 尺度多樣性與密集堆疊的擴張卷積中擴張率(1,2,3)的設置相對應。k 表示相應組合的感受野大小。

精心選擇膨脹率的另一個優點是,它可以克服網格化效果。如圖 4 所示,擴張率為 6 的擴脹卷積層位於擴張率為 3 的擴張卷積層下方。在一維情況下,經過這兩層之後,一個像素的最終結果只能從 7 個像素中獲得信息。當輸入數據是二維時,這種現象會變得更糟。因此,最終像素只能以網格方式查看原始信息,並丟失大部分(86.4%)信息。由於原始特徵圖的局部信息完全丟失,並且由於擴張率大,信息在大距離內可能不相關,這不利於群體計數中捕獲詳細特徵。通過採用新的擴張率組合,頂層可以覆蓋原始特徵圖的所有像素信息,避免中間層擴張率過大造成的大距離無關信息。這對於人群計數的準確性至關重要。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


密集殘差連接(Dense residual connection,DRC)

雖然 DDCB 提供了密集尺度多樣性,但不同塊之間的層次特徵沒有得到充分利用。因此,作者通過密集的殘差連接來改進體系結構,以進一步改進信息流。此外,與傳統的密集連接相比,它們還可以防止網絡變得更寬。這樣,DDCB 的輸出可以直接訪問後續 DDCB 的每一層,從而實現連續的信息傳遞。與普通的殘差連接相比,進一步擴大了尺度多樣性,並在信息流過程中自適應地保留了適合特定場景的特徵。

2.2 損失函數

以往的研究大多使用歐幾里得距離損失作為群體計數的損失函數,它只考慮像素誤差,而忽略了估計密度圖和真實密度圖之間的全局和局部相關性。在本文中,作者將多尺度密度水平一致性損失與歐幾里得損失結合起來,衡量全局和局部的一致性。

歐幾里得損失

歐幾里得距離用於測量估計密度圖與真實值之間像素級的估計誤差。損失函數定義如下:

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


其中 N 是一個 batch 中圖像的數目,G(Xi;θ) 是訓練圖像 Xi 的估測密度圖,參數為θ。D 是 Xi 的實際密度圖。

多尺度密度水平一致性損失

除了像素級損失函數外,作者還考慮了估計密度圖和真實值之間的全局和局部密度水平一致性。新提出的訓練損失定義為:

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


其中 s 是用於一致性檢查的尺度級別數,P 是平均池化操作,kj 為平均池化的指定輸出大小。

尺度級別將密度圖分割成不同的子區域,並形成池化表示,說明不同位置的人群密度級別。根據密度水平的上下文,在不同的尺度上,估計的密度圖需要與實際情況保持一致。此外,尺度級別的數量和特定尺度的輸出尺寸控制著訓練速度和估計精度之間的權衡。作者採用三個尺度級別,每個輸出尺寸分別為 1×1、2×2 和 4×4。輸出大小為 1×1 的第一個尺度級別捕獲密度水平的全局特徵,而其他兩個尺度級別表示圖像塊的局部密度水平。

最終目標函數

通過對上述兩個損失函數加權求和,整個網絡使用以下目標函數進行訓練:

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


"
點擊底部“瞭解更多” 閱讀全文
計算機視覺領域近年來對群體計數問題展開了廣泛的研究。由於尺度變化(scale variation)較大,該項任務仍然具有很大的挑戰性。在這篇論文中,中科院計算技術研究所提出了一種簡單而有效的群體數量統計網絡:DSNet。該網絡的核心結構是密集擴張卷積塊,其中每個擴張層與其他層緊密相連,防止信息受到尺度變化的影響。論文還介紹了一種新的多尺度密度水平一致性損失,提升了網絡的表現性能。作者在四個群體計數數據集(ShanghaiTech、UCF-QNRF、UCF_CC_50 和 UCSD)上與最新算法進行了比較。實驗結果表明,DSNet 在所有四個數據集上均達到最佳性能,並有顯著的提升:在 UCF-QNRF 和 UCF_CC_50 數據集上計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上準確率提高了 20%。本文是 AI 前線第 84 篇論文導讀。

1 介紹

近年來,隨著人口的快速增長,群體計數在視頻監控、交通管制和體育賽事等方面得到了廣泛應用。早期的研究工作通過檢測身體或頭部來估計人群數量,而其他一些方法則學習從局部或全局的特徵到實際數量的映射關係來估計數量。最近,群體計數問題被公式化為人群密度圖的迴歸,然後通過對密度圖的值進行求和以得到圖像中人群的數量。隨著深度學習技術的成功,研究人員採用卷積神經網絡(CNN)生成準確的群體密度圖,並能獲得比傳統方法更好的表現。

然而,由於尺度變化(scale variation)較大、遮擋嚴重、背景噪聲和透視失真,群體計數仍然是一項極具挑戰性的任務。其中,尺度變化是最主要的問題。為了更好地處理尺度變化,研究人員提出了許多多列(multi-column)或多分支(multi-branch)網絡。這些架構一般由 CNN 的幾個列或主幹網絡不同階段的幾個分支組成。這些列或分支具有不同的感受野,以感知人群大小的變化。儘管這些方法有了很好的改進,但它們捕獲的尺度多樣性受到列或分支數的限制。

尺度變化的主要挑戰在於兩個方面。首先,如圖 1 左所示,人群圖像中的人通常大小不同,從幾個像素到幾十個像素不等。這就要求網絡能夠處理尺度變化很大的數據。第二,如圖 1 右所示,整個圖像的尺度通常連續變化,特別是對於高密度圖像。這就要求網絡能夠對尺度範圍進行密集採樣。然而,現有的方法並不能同時應對這兩個挑戰。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 1 群體計數數據集中存在較大的尺度變化。左:Shanghai Tech 中輸入圖像和對應的真實密度圖。右:UCF-QNRF 數據集中輸入圖像和對應的真實密度圖。

本文提出了一種新的密集尺度單欄神經網絡——DSNet,用於群體計數。DSNET 由密集連接的擴張卷積塊組成,因此它可以輸出具有不同感受野的特徵,並且捕獲不同尺度的人群信息。DSNet 的卷積塊與 DenseASPP 結構相似,但具有不同的擴張率組合。作者為塊內的層仔細選擇這些比率,這樣每個塊對連續變化的尺度進行更密集的採樣。同時,所選擇的擴張率組合可以利用感受野的所有像素進行特徵計算,防止網格化效果。為了進一步提高 DSNet 捕獲的尺度多樣性,作者堆疊了三個密集擴張卷積塊,並利用殘差連接(residual connection)進行密集連接。最終的網絡能夠以更密集的方式對非常大的尺度變化範圍進行採樣,從而能夠處理群體計數中尺度變化較大的問題。

以前大多數方法使用傳統的歐幾里德損失(Euclidean loss)訓練網絡,這是基於像素獨立性的假設。這種損失忽略了密度圖的全局和局部一致性,會影響群體計數的結果。為了解決這一問題,作者提出了多尺度密度水平一致性損失,用於保證估計的人群密度圖和真實人群密度圖之間的全局和局部的密度水平保持一致。

論文貢獻

* 提出了密集擴張卷積塊(DDCB),其擴張率是仔細選擇的。DDCB 能夠對連續變化的尺度進行密集採樣。DSNet 可以進行端到端的訓練,並且可以處理擁擠和稀疏的人群圖像。* 引入了多尺度密度水平一致性損失,以提高模型表現。該損失加強了估測密度圖和真實密度圖之間的全局和局部一致性。* 作者在四個具有挑戰性的公開群體統計數據集上進行了廣泛的實驗。與現有的最先進方法相比,該方法獲得了最佳性能。在 UCF-QNRF 和 UCF_CC_50 數據集上的計數準確率提高了 30%,在 Shanghai Tech 和 UCSD 數據集上的計數準確率提高了 20%。

2 DSNet

該方法基本思想是一個端到端的單列 CNN,具有更密集的尺度多樣性,以應對密集和稀疏場景中的大的尺度變化和密度水平差異。DSNET 的體系結構如圖 2 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


2.1 DSNet 結構

我們提出的 DSNET 包含主幹網絡作為特徵提取器,三個密集的擴張卷積塊,由密集殘差連接堆疊,擴大了尺度多樣性,以及三個卷積層,用於人群密度圖迴歸。

主幹網絡

本文所用的主幹網絡為 VGG-16 的前十層,以及三個池化層。經驗表明,在多列網絡中,使用內核較小但層數較多的卷積層比內核更大但層數更少的卷積層更有效。此外,它還實現了準確率與計算量之間的最佳權衡,適用於準確、快速的人群計數。

密集擴張卷積塊(Dense dilated convolution block,DDCB)

為了應對尺度變化的挑戰,需要一種能夠以儘可能密集的方式捕獲大範圍尺度變化的網絡架構。本文提出了一種新的密集擴張卷積塊,它包含三個擴張卷積層,其擴張率為 1,2,3。這種設置可以保留來自更密集尺度的信息,並且感受野尺寸差距較小。區塊內的每個擴張層與其他層緊密相連,因此每個層都可以訪問所有後續層,並傳遞需要保留的信息。密集連接後,獲得的尺度多樣性增加,如圖 3 所示。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


圖 3 DDCB 尺度多樣性與密集堆疊的擴張卷積中擴張率(1,2,3)的設置相對應。k 表示相應組合的感受野大小。

精心選擇膨脹率的另一個優點是,它可以克服網格化效果。如圖 4 所示,擴張率為 6 的擴脹卷積層位於擴張率為 3 的擴張卷積層下方。在一維情況下,經過這兩層之後,一個像素的最終結果只能從 7 個像素中獲得信息。當輸入數據是二維時,這種現象會變得更糟。因此,最終像素只能以網格方式查看原始信息,並丟失大部分(86.4%)信息。由於原始特徵圖的局部信息完全丟失,並且由於擴張率大,信息在大距離內可能不相關,這不利於群體計數中捕獲詳細特徵。通過採用新的擴張率組合,頂層可以覆蓋原始特徵圖的所有像素信息,避免中間層擴張率過大造成的大距離無關信息。這對於人群計數的準確性至關重要。

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


密集殘差連接(Dense residual connection,DRC)

雖然 DDCB 提供了密集尺度多樣性,但不同塊之間的層次特徵沒有得到充分利用。因此,作者通過密集的殘差連接來改進體系結構,以進一步改進信息流。此外,與傳統的密集連接相比,它們還可以防止網絡變得更寬。這樣,DDCB 的輸出可以直接訪問後續 DDCB 的每一層,從而實現連續的信息傳遞。與普通的殘差連接相比,進一步擴大了尺度多樣性,並在信息流過程中自適應地保留了適合特定場景的特徵。

2.2 損失函數

以往的研究大多使用歐幾里得距離損失作為群體計數的損失函數,它只考慮像素誤差,而忽略了估計密度圖和真實密度圖之間的全局和局部相關性。在本文中,作者將多尺度密度水平一致性損失與歐幾里得損失結合起來,衡量全局和局部的一致性。

歐幾里得損失

歐幾里得距離用於測量估計密度圖與真實值之間像素級的估計誤差。損失函數定義如下:

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


其中 N 是一個 batch 中圖像的數目,G(Xi;θ) 是訓練圖像 Xi 的估測密度圖,參數為θ。D 是 Xi 的實際密度圖。

多尺度密度水平一致性損失

除了像素級損失函數外,作者還考慮了估計密度圖和真實值之間的全局和局部密度水平一致性。新提出的訓練損失定義為:

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


其中 s 是用於一致性檢查的尺度級別數,P 是平均池化操作,kj 為平均池化的指定輸出大小。

尺度級別將密度圖分割成不同的子區域,並形成池化表示,說明不同位置的人群密度級別。根據密度水平的上下文,在不同的尺度上,估計的密度圖需要與實際情況保持一致。此外,尺度級別的數量和特定尺度的輸出尺寸控制著訓練速度和估計精度之間的權衡。作者採用三個尺度級別,每個輸出尺寸分別為 1×1、2×2 和 4×4。輸出大小為 1×1 的第一個尺度級別捕獲密度水平的全局特徵,而其他兩個尺度級別表示圖像塊的局部密度水平。

最終目標函數

通過對上述兩個損失函數加權求和,整個網絡使用以下目標函數進行訓練:

中科院提出人群密度檢測算法 DSNet,準確率提升 30%


中科院提出人群密度檢測算法 DSNet,準確率提升 30%


表 1 不同數據集的λ值

3 實現


3.1 生成真實值

3.2 評價方法

點擊“瞭解更多”獲取原文

"

相關推薦

推薦中...