資訊內(nèi)容
CVPR2019 oral | ScratchDet,從頭開始訓(xùn)練單步目標(biāo)檢測器
本文《ScratchDet: Training Single-Shot Object Detectors from Scratch》提出了一種從零開始訓(xùn)練的單步目標(biāo)檢測器ScratchDet, 并基于root-block設(shè)計(jì)了新的基礎(chǔ)網(wǎng)絡(luò)Root-ResNet。ScratchDet的性能在現(xiàn)有從頭開始訓(xùn)練的目標(biāo)檢測模型中達(dá)到最佳,且優(yōu)于部分基于預(yù)訓(xùn)練基礎(chǔ)網(wǎng)絡(luò)的檢測模型。

論文地址:
https://arxiv.org/pdf/1810.08425.pdf
代碼地址:
https://github.com/KimSoybean/ScratchDet
引言
當(dāng)前最優(yōu)的目標(biāo)檢測框架基本都是以預(yù)訓(xùn)練的高精度分類網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),在其后增加相應(yīng)的檢測器并進(jìn)行finetune。分類和檢測任務(wù)對(duì)于平移不變性的敏感程度并不相同,且基于finetune的方法不便于對(duì)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行修改。因此本文提出了一種從頭開始訓(xùn)練的目標(biāo)檢測器ScratchDet。
ScratchDet
BatchNorm用于從頭開始訓(xùn)練
BatchNorm使得優(yōu)化空間變得顯著平滑,誘導(dǎo)梯度產(chǎn)生更加可預(yù)測和穩(wěn)定的行為,從而允許更大的參數(shù)搜索空間和更快的收斂速度。本文以SSD作為研究和對(duì)比對(duì)象,原始的SSD中不包含BatchNorm。
BatchNorm用于基礎(chǔ)網(wǎng)絡(luò)
在SSD的基礎(chǔ)網(wǎng)絡(luò)中每一個(gè)卷積層后均添加BatchNorm,由表1中結(jié)果可以看出,當(dāng)學(xué)習(xí)率為0.001時(shí),
由67.6%提高至72.8%,同時(shí)由于BatchNorm使得優(yōu)化空間變得顯著平滑,從而可以使用更大的學(xué)習(xí)率進(jìn)行訓(xùn)練,當(dāng)學(xué)習(xí)率
增大到為0.05時(shí),其
則提升至78.7%

BatchNorm用于檢測頭
通過圖1(b)和圖1(c)可知,當(dāng)用默認(rèn)的學(xué)習(xí)率從頭開始訓(xùn)練SSD時(shí),其梯度L2范數(shù)的波動(dòng)較為劇烈,尤其是在訓(xùn)練的初始階段,使其損失產(chǎn)生突變,收斂于一個(gè)較差的局部最小值,這也有效解釋了為何使用較大學(xué)習(xí)率從頭訓(xùn)練SSD網(wǎng)絡(luò)時(shí)通常會(huì)導(dǎo)致梯度爆炸和較差的性能。
與之相比,在SSD檢測頭中增加BatchNorm,使得優(yōu)化空間更加平滑,由67.6%提高至71.0%。在應(yīng)用較大學(xué)習(xí)率之后,其
則可提高至75.6%。同時(shí),大的學(xué)習(xí)率有助于模型跳出較差的局部最優(yōu),產(chǎn)生更加穩(wěn)定的梯度。

BatchNorm用于整個(gè)目標(biāo)檢測網(wǎng)絡(luò)
當(dāng)同時(shí)在基礎(chǔ)網(wǎng)絡(luò)和目標(biāo)檢測頭中使用BatchNorm,并采用0.05的學(xué)習(xí)率從頭訓(xùn)練,最終可達(dá)到78.7%,性能超過基于預(yù)訓(xùn)練VGG網(wǎng)絡(luò)的SSD
為77.2%。
基礎(chǔ)網(wǎng)絡(luò)改進(jìn)
ResNet和VGG的性能分析
VGG-16和ResNet-101是SSD中兩個(gè)常用的基礎(chǔ)網(wǎng)絡(luò),總體來說,ResNet-101在分類性能上優(yōu)于VGG-16。但在輸入圖片尺寸相對(duì)較?。?img src="upload/article/images/2021-01-31/f9576adbca63e151d62773fd193f0f7a.jpg" alt="upload/article/images/2021-01-31/f9576adbca63e151d62773fd193f0f7a.jpg" />)的數(shù)據(jù)集PASCAL
VOC上,基于VGG-16的SSD其檢測精度卻優(yōu)于基于ResNet-101的模型。當(dāng)從ResNet-101第一個(gè)卷積層中移除下采樣操作后,其從73.1%提高至77.6%,表明該下采樣操作造成了較多的信息損失,對(duì)于模型的檢測精度有較大的負(fù)面影響,尤其是對(duì)于圖片中較小的目標(biāo)。
目標(biāo)檢測基礎(chǔ)網(wǎng)絡(luò)設(shè)計(jì)
為了在克服上述缺陷的同時(shí)保持基礎(chǔ)網(wǎng)絡(luò)強(qiáng)大的分類能力,本文基于原始SSD中的基礎(chǔ)網(wǎng)絡(luò)ResNet進(jìn)行了改進(jìn),提出了新的結(jié)構(gòu),名為Root-ResNet,其核心思想是去除了原始ResNet第一個(gè)卷積層中的下采樣操作,并將的單步卷積替換成3個(gè)
卷積的堆疊。該設(shè)計(jì)能使網(wǎng)絡(luò)捕獲更多的局部信息,從而為小目標(biāo)的檢測提取更加豐富有效的特征。同時(shí)本文將SSD中用于提取不同尺度特征的卷積層替換為多個(gè)殘差模塊,每個(gè)殘差模塊由兩個(gè)分支組成,一個(gè)分支是步幅為2的
卷積,另一個(gè)分支則由兩個(gè)
卷積堆疊而成,其中第一個(gè)卷積的步幅為2,第二個(gè)卷積的步幅為1,卷積的輸出通道數(shù)皆為128。
實(shí)驗(yàn)結(jié)果
PASCAL VOC
在的圖像輸入下,ScratchDet的
在VOC
2007上達(dá)到80.4%,在從頭訓(xùn)練的檢測模型中達(dá)到最佳,同時(shí)也優(yōu)于預(yù)訓(xùn)練的單步檢測模型,如SSD300和DES300。而在VOC
2012上,ScratchDet的
也達(dá)到78.5%,且與輸入圖像尺寸為
,基于預(yù)訓(xùn)練的雙步檢測網(wǎng)絡(luò)相比,如R-FCN,其
值高出了0.9%。

MS COCO
在MS COCO數(shù)據(jù)集上,ScratchDet的為32.7%,遠(yuǎn)優(yōu)于相似輸入尺寸的其他模型。對(duì)于Faster
R-CNN 和 Deformable
R-FCN等模型,其訓(xùn)練及驗(yàn)證的圖像尺寸較大,公平起見,本文測試了ScratchDet的多尺度檢測結(jié)果,其
為39.1%,優(yōu)于具有較大輸入尺寸的單步及雙步目標(biāo)檢測模型。

結(jié)論
(1)本文分析了BatchNorm在目標(biāo)檢測模型的基礎(chǔ)網(wǎng)絡(luò)及檢測頭中的作用,并實(shí)現(xiàn)了目標(biāo)檢測網(wǎng)絡(luò)的從頭開始訓(xùn)練。
(2)通過分析基于VGG和ResNet的SSD網(wǎng)絡(luò)的性能,提出了新的基礎(chǔ)網(wǎng)絡(luò)Root-ResNet用以進(jìn)一步提高目標(biāo)檢測的精度。
(3)本文提出了一種從頭訓(xùn)練的新目標(biāo)檢測模型ScratchDet,與其他從頭訓(xùn)練的目標(biāo)檢測模型相比,該模型在VOC及COCO數(shù)據(jù)集上取得最佳性能,且優(yōu)于部分基于預(yù)訓(xùn)練基礎(chǔ)網(wǎng)絡(luò)的單步及雙步目標(biāo)檢測模型。
長按識(shí)別關(guān)注,獲取更多新鮮論文解讀
聲明:本文章由網(wǎng)友投稿作為教育分享用途,如有侵權(quán)原作者可通過郵件及時(shí)和我們聯(lián)系刪除
