基于聯(lián)邦學(xué)習(xí)的深度學(xué)習(xí)框架,用于在室內(nèi)和室外環(huán)境中實(shí)現(xiàn)魯棒的物體檢測(cè)
《Computers and Electrical Engineering》:Federated learning based deep learning framework for robust object detection in indoor and outdoor environments
編輯推薦:
物體檢測(cè)在聯(lián)邦學(xué)習(xí)框架下結(jié)合YOLOv8和DPNet提出新模型YOLO-DPNetv8,解決復(fù)雜環(huán)境與隱私問題,實(shí)驗(yàn)顯示其MAP達(dá)93.656%,RMSE為0.370。
Pir Dino Soomro | Xianping Fu | Santosh Kumar Banbhrani | Arsalan Ali | Muhammad Asad
大連海事大學(xué)信息科學(xué)與技術(shù)學(xué)院,中國(guó)大連市凌海路1號(hào),116026
摘要
- 目標(biāo)檢測(cè)是在圖像中識(shí)別物體的任務(wù),它在許多領(lǐng)域(如監(jiān)控、機(jī)器人技術(shù)、自動(dòng)駕駛車輛等)中被視為關(guān)鍵任務(wù)。由于環(huán)境因素、背景復(fù)雜性和光照條件的影響,室內(nèi)和室外物體的檢測(cè)面臨諸多挑戰(zhàn)。此外,聯(lián)邦學(xué)習(xí)(Federated Learning, FL)允許使用來自多個(gè)設(shè)備(如傳感器和攝像頭)的圖像來訓(xùn)練模型,而無需共享圖像,從而確保了隱私性。因此,提出了一種名為“You Only Look Once-Dual-Path Network v8”(YOLO-DPNetv8)的新技術(shù),用于在聯(lián)邦學(xué)習(xí)環(huán)境中檢測(cè)室內(nèi)和室外物體。在聯(lián)邦學(xué)習(xí)中,物體檢測(cè)過程由節(jié)點(diǎn)和服務(wù)器兩個(gè)實(shí)體完成。在本地訓(xùn)練模型中,輸入的室內(nèi)和室外圖像首先通過注意力引導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)(Attention-guided Convolutional Neural Network, ADNet)進(jìn)行預(yù)處理,然后使用YOLO-DPNetv8進(jìn)行物體檢測(cè),最后通過邊緣提取網(wǎng)絡(luò)(Edge extraction network)進(jìn)行深度估計(jì)。YOLO-DPNetv8結(jié)合了You Only Look Once v8(YOLOv8)和Dual-Path Network(DPNet)的優(yōu)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,YOLO-DPNetv8的最大平均精度(Mean Average Precision, MAP)為93.656%,召回率(Recall)為95.432%,交并比(Intersection Over Union, IoU)為0.948%,精確度(Precision)為94.876%;最小均方根誤差(Root Mean Squared Error, RMSE)為0.370,均方誤差(Mean Squared Error, MSE)為0.137。
引言
- 目標(biāo)檢測(cè)是利用特定算法在圖像中標(biāo)記和查找感興趣的物體(如車輛、船舶、飛機(jī)、道路和建筑物)[1]。其主要目的是區(qū)分前景物體和背景物體[8]。目標(biāo)檢測(cè)在視頻或圖像中物體的定位和識(shí)別中也起著重要作用,對(duì)機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺任務(wù)有重要貢獻(xiàn)[10,17,18]。近年來,目標(biāo)檢測(cè)被應(yīng)用于不同領(lǐng)域,用于分析和理解關(guān)鍵場(chǎng)景中的物體動(dòng)態(tài)[8]。它的應(yīng)用包括交通監(jiān)控、汽車安全、廢棄物體檢測(cè)、增強(qiáng)現(xiàn)實(shí)、追蹤可疑活動(dòng)、入侵者檢測(cè)以及安全用途[8,2]。此外,目標(biāo)檢測(cè)還廣泛應(yīng)用于工業(yè)檢測(cè)、醫(yī)學(xué)圖像分析、智能視頻監(jiān)控、圖像和視頻檢索、自動(dòng)駕駛車輛等領(lǐng)域[12]。在制造業(yè)中,它也被用于檢測(cè)不確定性和有缺陷的裝配部件[15]。
- 在計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測(cè)過程中會(huì)涉及到各種基本的視覺識(shí)別問題,如語(yǔ)義分割(Semantic Segmentation)、實(shí)例分割(Instance Segmentation)和圖像分類(Image Classification)。語(yǔ)義分割用于為圖像分類中的像素級(jí)分類器分配特定類別標(biāo)簽,從而快速理解圖像并幫助檢測(cè)每個(gè)像素處的物體[9]。一般來說,目標(biāo)檢測(cè)包括兩個(gè)操作:物體分類(Object Classification)和物體定位(Object Localization)。物體定位有助于確定圖像中物體的確切位置,而物體分類用于識(shí)別物體所屬的準(zhǔn)確類別[14]。過去幾十年里,自動(dòng)物體識(shí)別和檢測(cè)技術(shù)取得了持續(xù)改進(jìn),已成為研究人員的熱門研究方向[5]。盡管從圖像中識(shí)別和檢測(cè)物體非常重要,但這在機(jī)器學(xué)習(xí)中仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[11]。
- 如今,由于自動(dòng)特征提取(Automatic Feature Extraction)的技術(shù)發(fā)展,深度學(xué)習(xí)方法常被用于精確的目標(biāo)檢測(cè)[21,22,16]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種廣泛用于目標(biāo)檢測(cè)的深度學(xué)習(xí)方法[1,4]。You Only Look Once(YOLO)也被用于從邊界框(Bounding Boxes)和多個(gè)群體中檢測(cè)物體[17,18]。同時(shí),聯(lián)邦學(xué)習(xí)(Federated Learning, FL)這種分布式機(jī)器學(xué)習(xí)范式被用于訓(xùn)練本地模型,以確保數(shù)據(jù)的安全性和隱私性[13,19,20]。隨著聯(lián)邦學(xué)習(xí)在基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)中的應(yīng)用越來越廣泛,其受歡迎程度也在增加[23]。然而,由于光照偏差、姿勢(shì)、尺度變化、視角變化和遮擋等因素,目標(biāo)檢測(cè)中的定位變得更加困難[12]。
- 本研究旨在建立一種高效的YOLO-DPNetv8策略,用于檢測(cè)室內(nèi)和室外物體。該工作的主要貢獻(xiàn)包括:
- •
本研究實(shí)現(xiàn)了專為聯(lián)邦學(xué)習(xí)環(huán)境開發(fā)的新型目標(biāo)檢測(cè)模型YOLO-DPNetv8,該模型能夠準(zhǔn)確檢測(cè)室內(nèi)和室外物體。
- •
YOLO-DPNetv8通過基于諧波分析的回歸方法將YOLOv8與DPNet融合而成。
- •
訓(xùn)練采用標(biāo)準(zhǔn)的分散式平均(Federated Averaging, FedAvg)聚合算法進(jìn)行。
本文的其余部分安排如下:第2節(jié)回顧了傳統(tǒng)方法中的文獻(xiàn)和挑戰(zhàn),第3節(jié)描述了提出的YOLO-DPNetv8模型,第4節(jié)展示了YOLO-DPNetv8的實(shí)驗(yàn)結(jié)果,第5節(jié)總結(jié)了研究結(jié)論。
文獻(xiàn)綜述
Wang等人[1]實(shí)現(xiàn)了一種單次檢測(cè)多框檢測(cè)器(Single Shot multibox Detector, SSD),用于室內(nèi)和室外物體檢測(cè)。該模型具有較高的魯棒性,并通過使用最少的參數(shù)顯著提高了檢測(cè)速度。然而,這種方法未能優(yōu)化復(fù)雜場(chǎng)景中的物體檢測(cè)算法,也無法從大型光學(xué)數(shù)據(jù)庫(kù)中成功檢測(cè)物體。
用于室內(nèi)和室外物體檢測(cè)的聯(lián)邦學(xué)習(xí)模型
圖1所示的聯(lián)邦學(xué)習(xí)模擬框架展示了多個(gè)本地節(jié)點(diǎn)之間的協(xié)作訓(xùn)練過程,無需共享原始數(shù)據(jù)。每個(gè)本地節(jié)點(diǎn)使用YOLO-DPNetv8(結(jié)合了[25]和DPNet[26]的混合模型)來檢測(cè)室內(nèi)和室外物體。每個(gè)節(jié)點(diǎn)接收室內(nèi)和室外圖像作為輸入,并根據(jù)其數(shù)據(jù)集進(jìn)行本地訓(xùn)練,同時(shí)保護(hù)數(shù)據(jù)隱私。該架構(gòu)包括三個(gè)本地節(jié)點(diǎn)...
結(jié)果與討論
本節(jié)描述了使用YOLO-DPNetv8進(jìn)行物體檢測(cè)的實(shí)驗(yàn)結(jié)果,并討論了評(píng)估YOLO-DPNetv8效率的相關(guān)內(nèi)容。
結(jié)論
目標(biāo)檢測(cè)涉及檢測(cè)多個(gè)物體的存在,通過為其分配標(biāo)簽并指定位置來實(shí)現(xiàn)。傳統(tǒng)方法在物體檢測(cè)方面存在許多挑戰(zhàn),如高錯(cuò)誤率和性能不佳。因此,提出了一種名為YOLO-DPNetv8的新技術(shù),用于在聯(lián)邦學(xué)習(xí)環(huán)境中檢測(cè)室內(nèi)和室外物體。在聯(lián)邦學(xué)習(xí)中,物體檢測(cè)過程由節(jié)點(diǎn)和服務(wù)器等實(shí)體完成。每個(gè)節(jié)點(diǎn)進(jìn)行本地訓(xùn)練...
代碼可用性聲明
本研究的源代碼可在以下鏈接公開獲。https://github.com/PirDino2020/FederatedLearning-RobustObjectDetection.git
作者聲明
Pir Dino Soomro參與了概念構(gòu)思、模型開發(fā)、實(shí)現(xiàn)和手稿撰寫。Xianping Fu和Arsalan Ali協(xié)助了模型設(shè)計(jì)和數(shù)據(jù)分析。Santosh Kumar Banbhrani負(fù)責(zé)數(shù)據(jù)集準(zhǔn)備和實(shí)驗(yàn)評(píng)估。Muhammad Asad參與了聯(lián)邦學(xué)習(xí)框架的構(gòu)建和手稿修訂。所有作者均審閱并批準(zhǔn)了最終版本的手稿。作者聲明不存在利益沖突,本研究為原創(chuàng)成果。