在過去的幾十年中,深度學(xué)習(xí)在人工智能領(lǐng)域取得了重大突破,特別是在理解圖像、文本和視頻等多模態(tài)數(shù)據(jù)方面表現(xiàn)優(yōu)異。在計(jì)算機(jī)視覺中,相關(guān)方法不僅顯著提高了識別準(zhǔn)確性,還推動了諸如對象檢測(Kang, Hu, Liu, Zhang, & Cao, 2025)等關(guān)鍵任務(wù)在復(fù)雜場景中的廣泛應(yīng)用。在圖像處理中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)如ResNet(He, Zhang, Ren, & Sun, 2016)和Vision Transformer(Dosovitskiy et al., 2020)在不同應(yīng)用中表現(xiàn)出色。最近,基于狀態(tài)空間模型的Vision Mamba(Zhu et al., 2024a)作為一種新架構(gòu)出現(xiàn),有可能在某些任務(wù)中取代Transformer。CNN長期以來在計(jì)算機(jī)視覺中非常重要,因?yàn)樗鼈兩瞄L提取局部空間特征。相比之下,Vision Transformer使用自注意力機(jī)制來建模全局信息并很好地捕捉長距離依賴性。由于這兩種方法相互補(bǔ)充,研究人員開始設(shè)計(jì)結(jié)合CNN和Transformer的混合架構(gòu)(Chang, Yin, Wang, 2024, Guo, Han, Wu, Tang, Chen, Wang, Xu, 2022, Peng, Huang, Gu, Xie, Wang, Jiao, Ye, 2021)。目標(biāo)是結(jié)合CNN的局部特征學(xué)習(xí)和Transformer的全局建模能力。這些混合模型不僅提高了圖像分類的性能,而且在對象檢測、語義分割和顯著性預(yù)測等下游任務(wù)中也表現(xiàn)良好。這一趨勢表明,結(jié)合局部和全局特征建模是構(gòu)建更好視覺模型的關(guān)鍵。
盡管CNN-Transformer混合模型通常優(yōu)于單一類型的架構(gòu),但其設(shè)計(jì)過程通常很復(fù)雜,且高度依賴于專家知識和大量的手動調(diào)整。設(shè)計(jì)這類模型需要仔細(xì)決定模塊組成、連接模式和優(yōu)化策略,這大大增加了實(shí)驗(yàn)成本,并限制了其在實(shí)際中的廣泛應(yīng)用。為了解決這個(gè)問題,提出了神經(jīng)架構(gòu)搜索(NAS)作為一種自動化框架,用于發(fā)現(xiàn)特定于任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)(Zoph & Le, 2017)。早期研究表明,自動搜索的架構(gòu)可以比手動設(shè)計(jì)的模型實(shí)現(xiàn)競爭性甚至更優(yōu)的性能,這促使人們開發(fā)出更高效和可擴(kuò)展的NAS方法(Howard, Sandler, Chu, Chen, Chen, Tan, Wang, Zhu, Pang, Vasudevan, et al., 2019, Liu, Zoph, Neumann, Shlens, Hua, Li, Fei-Fei, Yuille, Huang, Murphy, 2018a)。特別是基于進(jìn)化的搜索策略被證明對于處理復(fù)雜和高維的搜索空間非常有效,包括變分自編碼器等生成模型(Shang et al., 2024)。
最近,NAS已經(jīng)發(fā)展到結(jié)合了多種優(yōu)化范式。進(jìn)化方法在搜索過程中明確考慮了多個(gè)目標(biāo),從而在性能和效率之間實(shí)現(xiàn)了更好的權(quán)衡(Li, Liu, Shang, Jiao, 2025b, Ming, Gong, Xue, Zhang, Jin, 2025)。同時(shí),可微分的NAS方法將離散搜索空間轉(zhuǎn)化為連續(xù)形式,允許基于梯度的優(yōu)化和更靈活的拓?fù)涮剿鳎≧ao, Zhao, Liu, & Alippi, 2025)。此外,自監(jiān)督NAS框架在保持強(qiáng)大搜索性能的同時(shí)減少了對標(biāo)記數(shù)據(jù)的依賴(Li et al., 2025a)。
盡管在架構(gòu)優(yōu)化方面取得了這些進(jìn)展,但NAS的高計(jì)算成本仍然是一個(gè)關(guān)鍵挑戰(zhàn),因?yàn)樵u估候選架構(gòu)通常需要大量的訓(xùn)練。為了減輕這一負(fù)擔(dān),最近的研究探索了無需訓(xùn)練的評估指標(biāo),這些指標(biāo)可以在不完全優(yōu)化的情況下估計(jì)網(wǎng)絡(luò)質(zhì)量(Dai, Wei, Hu, Sun, Xu, Zhang, Zhao, 2026, Tybl, Neumann, 2025, Zhou, Sheng, Zheng, Li, Tian, Chen, Ji, 2024)。作為架構(gòu)級優(yōu)化的補(bǔ)充,還研究了高效的知識遷移技術(shù),如動態(tài)知識蒸餾,以在有限的訓(xùn)練預(yù)算下進(jìn)一步提高模型性能(Zhu et al., 2024b),這突顯了在大規(guī)模模型設(shè)計(jì)中減少優(yōu)化開銷的重要性。
在本文中,介紹了一種名為EHNAS的無訓(xùn)練神經(jīng)架構(gòu)搜索方法。該方法使用動態(tài)搜索空間來處理混合模塊,旨在自動化搜索包含多種類型模塊的混合框架,從而減少搜索時(shí)間并提高評估效率。還提出了一種新的橋接層SF2M,用于處理混合架構(gòu)中CNN模塊和自注意力模塊之間的空間特征對齊和融合。該模塊旨在保持參數(shù)開銷較低,同時(shí)實(shí)現(xiàn)對特征空間的對齊并促進(jìn)高效的信息流。因此,它支持在混合框架中的有效架構(gòu)搜索。具體來說,SF2M橋接層使用了一種迭代正交特征融合方法,逐步處理局部和全局特征,從而在結(jié)合這兩種特征時(shí)減少重疊或冗余信息。實(shí)驗(yàn)表明,這種設(shè)計(jì)使混合模型更加健壯和表達(dá)力更強(qiáng),同時(shí)保持輕量級。
為了解決搜索空間爆炸的問題,我們設(shè)計(jì)了一種使用大型語言模型(LLM)動態(tài)縮小搜索空間的方法。當(dāng)添加更多模塊時(shí),搜索維度和候選操作會激增,使得原始搜索空間變得太大而無法在合理的時(shí)間內(nèi)探索。主要問題是傳統(tǒng)搜索方法無法有效縮小搜索范圍,導(dǎo)致過程緩慢且效率低下。由于LLM具有強(qiáng)大的推理和代碼生成能力,我們智能地利用它們來移除搜索空間中不必要的部分,只保留合理和高效的區(qū)域進(jìn)行進(jìn)一步探索。我們的方法還包括一種基于ISQM指標(biāo)的反饋機(jī)制,該指標(biāo)在搜索過程中評估每個(gè)子空間的質(zhì)量。這有助于搜索算法專注于最有前途的區(qū)域,避免了傳統(tǒng)基于LLM的搜索方法的黑箱性質(zhì)。
在搜索階段,引入了一種三級搜索策略。它從宏觀架構(gòu)級別逐步向下到超參數(shù)級別,最后到連接模式級別。這種逐步的方法確保每個(gè)階段都能準(zhǔn)確高效地探索最佳選項(xiàng),從而有效地管理大型搜索空間。為了減少搜索和評估所需的時(shí)間,使用了RBFleX(Yamasaki, Wang, Luo, Chen, & Wang, 2025)得分作為無訓(xùn)練的代理指標(biāo)。這大大提高了搜索效率,使過程更加實(shí)用。我們的主要貢獻(xiàn)如下:
1. 設(shè)計(jì)了一個(gè)支持多種類型模塊的單元級搜索空間。
2. 引入了一種基于LLM的智能剪枝方法,以減少搜索空間大小并避免搜索爆炸。
3. 將Alpha Evolution算法應(yīng)用于NAS,并使用動態(tài)搜索空間開發(fā)了一種無訓(xùn)練的分層搜索方法,用于混合模塊。這種方法顯著提高了搜索效率和架構(gòu)設(shè)計(jì)速度,尤其是在復(fù)雜任務(wù)中。
4. 提出了一種名為SF2M的橋接層,以改善混合架構(gòu)中CNN和自注意力模塊之間的空間特征對齊和融合。