《Frontiers in Artificial Intelligence》:Transformer enhanced based YOLOv8 integration: a hybrid deep learning framework for intelligent insulator defect detection in high-voltage transmission systems
編輯推薦:
本文提出了一種創新的Transformer-Enhanced YOLOv8 (TE-YOLOv8)混合深度學習框架,用于解決高壓輸電系統中絕緣子缺陷(IDs)的精準、實時檢測難題。該模型在YOLOv8基礎上,集成了基于Transformer的注意力機制,并引入了全局卷積(GConv)、C3f-全局池化融合(C3f-GPF)、多尺度信息融合(MSIF)和加權特征信息融合(WFIF)等關鍵模塊,有效增強了特征提取能力和全局上下文建模。在IDID和CPLID數據集上的實驗表明,TE-YOLOv8分別達到了94.2%和93.8%的平均精度(mAP),較基準YOLOv8有顯著提升,同時保持了每秒82幀的實時推理速度。這項工作為復雜環境下的輸電線路智能化巡檢提供了魯棒且高效的解決方案。
1 引言
高壓輸電系統是現代基礎設施的骨干,而絕緣子作為維持帶電導體與支撐結構之間電氣隔離的關鍵組件,其失效可能導致災難性故障和重大經濟損失。絕緣子相關故障約占所有輸電線路故障的35%,凸顯了主動缺陷檢測的重要性。傳統的目視檢查方法存在勞動強度大、安全性風險高、評估主觀等局限。無人機技術的發展實現了系統性的空中監測,但海量圖像的手動處理成為瓶頸。以YOLO系列為代表的單階段目標檢測算法在實時檢測中展現出卓越性能,但現有YOLO框架在檢測絕緣子微小、復雜缺陷時仍存在局限,例如卷積架構捕獲長距離空間依賴的能力有限、固定感受野難以適應航拍圖像中的極端尺度變化、傳統特征金字塔對絕緣子特定尺度分布性能欠佳等。
針對這些挑戰,本研究提出了Transformer-Enhanced YOLOv8 (TE-YOLOv8)混合架構,其核心貢獻包括:在YOLOv8基礎上集成Transformer編碼器模塊以實現全局上下文建模;設計全局卷積(GConv)模塊,通過分解的大核卷積以最小計算開銷增強空間上下文捕獲;引入C3f-全局池化融合(C3f-GPF)模塊,在C3f結構中融入全局池化操作以增強判別性特征;提出帶可學習融合權重的多尺度信息融合(MSIF)模塊,實現跨尺度的自適應檢測;開發加權特征信息融合(WFIF)模塊,通過通道注意力動態優化特征表示。此外,采用SCYLLA-IoU (SIoU)損失函數以提升定位精度并加速收斂。
2 相關研究
絕緣子缺陷檢測方法的發展經歷了從經典計算機視覺到當代深度學習框架的演變。早期研究主要采用手工特征提取和經典機器學習分類技術,但在面對實際巡檢中多變的環境條件、復雜背景和多樣缺陷形態時泛化能力有限。基于區域的卷積神經網絡(R-CNN)架構標志著檢測方法的范式轉變,實現了從數據中自動學習層次化特征表示,但其固有的兩階段檢測范式引入了計算復雜性和延遲,限制了在資源受限無人機平臺上實時部署的可行性。
單階段目標檢測架構,特別是YOLO家族,通過將檢測表述為統一的回歸問題,革命性地改變了實時視覺識別。YOLO及其后續版本通過殘差連接、空間金字塔池化、路徑聚合網絡等架構改進,逐步提升了檢測性能。然而,現有的基于YOLO的框架在捕獲全局上下文和長距離依賴方面能力有限,制約了其在具有嚴重遮擋、尺度變化和背景干擾的復雜輸電線路環境中的性能。
注意力機制和Transformer架構的引入推動了計算機視覺的顯著進步。卷積塊注意力模塊(CBAM)展示了通道和空間注意力對于增強CNN特征表示的有效性。視覺Transformer(Vision Transformers)通過將圖像建模為通過多頭自注意力機制處理的補丁序列,在各種視覺識別基準上實現了最先進的性能。結合卷積特征提取和基于Transformer的上下文建模的混合架構顯示出特別的潛力。然而,Transformer增強架構在絕緣子缺陷檢測中的應用仍然有限,代表了提高在具有挑戰性的操作條件下檢測魯棒性的重要研究機會。
3 方法論
TE-YOLOv8框架旨在增強YOLOv8檢測高壓電力輸電系統中絕緣子缺陷的能力。該框架在YOLOv8基礎上集成了多個先進模塊。
3.1 系統概述
YOLOv8基線模型包含主干網絡、頸部網絡和頭部組件。標準卷積層有時無法捕獲對檢測細微和小缺陷至關重要的細粒度空間和上下文特征。TE-YOLOv8通過引入多個高級模塊來解決這些限制,以增強特征提取、多尺度檢測和上下文理解。
具體而言,主干網絡中用全局卷積(GConv)模塊替換了關鍵位置的傳統卷積層,以捕獲更廣泛的空間上下文。C3模塊通過融入C3f-全局池化融合(C3-GPF)模塊得到增強,通過全局池化操作重新校準特征。多尺度信息融合(MSIF)模塊取代了SPPF模塊,增強了網絡檢測多尺度目標的能力。加權特征信息融合(WFIF)模塊取代了標準的Concat模塊,通過可學習的注意力權重實現對關鍵缺陷相關特征的更精確處理。此外,引入了SCYLLA-IoU (SIoU)損失函數以取代YOLOv8中傳統使用的CIoU損失函數,從而加速模型訓練并提高其準確定位絕緣子缺陷的能力。
3.2 全局卷積模塊
傳統卷積操作是空間無關和通道特定的,這限制了其捕獲擴展空間依賴關系的能力。大核卷積可以擴大感受野,但其參數和計算的二次增長使其不適合實時部署。為了解決這些限制,提出了全局卷積(GConv)模塊,它通過將大核卷積分解為順序的水平和垂直一維操作,集成了空間和通道信息以捕獲全局特征,同時保持計算效率。
GConv操作數學上定義為 FGConv= σ (Wv* (Wh* Fin)),其中Fin∈ RC×H×W表示輸入特征圖,Wh∈ RC×1×k和 Wv∈ RC×k×1分別表示水平和垂直卷積核。與標準卷積相比,分解的GConv操作實現了計算復雜度的顯著降低,效率比約為 2/k。
3.3 C3-全局池化融合模塊
為了克服標準C3模塊在復雜背景下難以強調缺陷特定信息的限制,提出了C3-全局池化融合(C3-GPF)模塊。該模塊通過將全局池化操作集成到跨階段部分瓶頸結構中,增強了特征表示的判別能力。
C3-GPF模塊的數學表述為 Fbn(i)= Bottleneck (Fbn(i-1)) + GPF (Fbn(i-1))。其中,全局池化融合操作定義為 GPF(F) = F ⊙ σ(Conv(GAP(F)))。這里,GAP表示跨特征圖計算空間平均的全局平均池化。全局統計信息通過卷積層和Sigmoid激活函數轉換為通道調制權重,并通過逐元素乘法應用于特征圖。這種機制能夠基于全局上下文進行自適應的特征重校準,增強網絡對缺陷特征的敏感性,同時抑制不相關的背景激活。
3.4 多尺度信息融合模塊
檢測航拍圖像中的絕緣子和缺陷需要跨多個空間尺度的特征有效融合。傳統的特征金字塔網絡通常采用固定的融合策略,無法適應輸入特征或最優地權衡不同尺度的貢獻。為了解決這個問題,提出了多尺度信息融合(MSIF)模塊,該模塊實現了具有可學習融合權重和跨尺度特征交互的雙向特征金字塔架構。
MSIF設計包括通過自適應權重連接的從下到上和從上到下的路徑。自下而上的路徑從精細到粗糙尺度聚合特征:Plbu= fdown(Pl-1bu) + wllat* Flbackbone。自上而下的路徑從粗糙到精細尺度傳播語義信息:Pltd= fup(Pl+1td) + wltd* Plbu。最終的多尺度特征表示是自下而上和自上而下特征的加權組合:Plout= wlbu* Plbu+ wltd* Pltd。可學習的權重通過SoftMax歸一化約束總和為1。這種自適應融合策略使網絡能夠根據輸入特征和尺度特定信息內容動態調整特征貢獻,從而提高在輸電線路檢測應用中遇到的各種目標尺寸范圍內的檢測性能。
3.5 加權特征信息融合模塊
絕緣子缺陷檢測通常涉及僅占整個特征空間一小部分的判別性特征,而背景雜亂會產生大量無信息的激活。傳統的融合策略平等對待所有通道,這稀釋了缺陷特定信號的重要性。為了克服這個限制,引入了加權特征信息融合(WFIF)模塊,該模塊實現通道注意力,以選擇性地強調信息豐富的通道并抑制不相關的通道。
WFIF操作首先使用平均池化和最大池化計算全局通道統計:zavg= GAP(F), zmax= GMP(F)。全局統計通過共享的多層感知器處理以生成通道注意力權重:a = σ(MLP(zavg) + MLP(zmax))。MLP采用具有縮減比r的瓶頸架構以約束參數。最終重新校準的特征圖來自通道乘法:FWFIF= F ⊙ Reshape(a)。這種注意力機制能夠根據輸入內容動態重新加權特征通道,增強網絡對判別性缺陷特征的關注,同時減弱背景干擾。
3.6 Transformer增強的頸部網絡架構
Transformer增強的頸部網絡架構通過集成Transformer編碼器模塊,實現了全局感受野和卓越的特征交互能力,從根本上重構了特征融合網絡。傳統的頸部網絡采用純粹的卷積操作處理局部鄰域,限制了其捕獲復雜場景中魯棒檢測所必需的長距離依賴和全局上下文的能力。Transformer增強的設計用Transformer編碼器塊替換了頸部網絡中的選定卷積層。
每個Transformer編碼器將特征圖作為空間標記序列進行處理,并應用多頭自注意力來建模全局依賴:Attention(Q, K, V) = softmax(QKT/√dk)V。其中Q、K、V表示通過學習的線性投影從輸入特征導出的查詢、鍵和值矩陣,dk表示鍵維度。多頭注意力機制采用具有不同學習投影的并行注意力操作:MultiHead(F) = Concat(head1, ..., headh)WO。每個注意力頭計算為:headi= Attention(FWiQ, FWiK, FWiV)。Transformer編碼器結合了前饋網絡和殘差連接:Ftrans= LayerNorm(F + MultiHead(F)), Fout= LayerNorm(Ftrans+ FFN(Ftrans)),其中前饋網絡定義為FFN(F) = W2* GELU(W1* F)。這種Transformer集成使每個空間位置都能夠關注特征圖中的所有其他位置,捕獲對于在雜亂的輸電線路環境中從視覺上相似的背景元素中區分缺陷特征至關重要的全局上下文和長距離依賴。
3.7 SCYLLA-IoU損失函數
精確的邊界框回歸對于絕緣子缺陷檢測至關重要。為了提高定位精度并加速訓練收斂,用SCYLLA-IoU損失函數取代了傳統的完全交并比(CIoU)損失。與主要考慮質心距離和縱橫比的CIoU不同,SCYLLA-IoU引入了四個互補的分量——角度成本、距離成本、形狀成本和IoU成本——為邊界框優化提供更全面的監督。
SIoU損失公式為 LSIoU= 1 - IoU + (Λangle+ Λdist)/2。角度成本項懲罰預測框和