69精品人人人,久久久噜噜噜久久中文字幕色伊伊,亚洲无aV在线中文字幕

EHNAS：通過基于大型語言模型的空間剪枝實(shí)現(xiàn)高效混合架構(gòu)搜索，并采用無需訓(xùn)練的評估方法

《Expert Systems with Applications》：EHNAS: Efficient Hybrid Architecture Search via LLM-Based Space Pruning and Training-Free Evaluation

【字體：大中小】 時(shí)間：2026年03月02日 來源：Expert Systems with Applications 7.5

編輯推薦：

　　EHNAS框架通過動態(tài)搜索空間壓縮和分層優(yōu)化策略，結(jié)合大語言模型指導(dǎo)的架構(gòu)搜索與SF2M橋接層實(shí)現(xiàn)跨模態(tài)特征融合，顯著提升混合視覺架構(gòu)的搜索效率和性能，在CIFAR-10和ImageNet-1K上達(dá)到97.4%和81.9%的Top-1精度，計(jì)算成本僅0.018 GPU-day。

張一晨|胡子宇

中國河北省秦皇島市燕山大學(xué)電氣工程學(xué)院，郵編066004

摘要

盡管CNN-Transformer混合模型在結(jié)合局部和全局特征以完成視覺任務(wù)方面顯示出潛力，但其設(shè)計(jì)仍然高度依賴于專家知識和個(gè)人調(diào)整。現(xiàn)有的神經(jīng)架構(gòu)搜索方法在單一模型類型內(nèi)的搜索中取得了良好的結(jié)果。然而，當(dāng)需要結(jié)合不同類型的模塊時(shí)，這些方法的效果并不理想。缺乏統(tǒng)一的搜索框架使得在大規(guī)模混合架構(gòu)搜索中實(shí)現(xiàn)全局優(yōu)化變得困難。為了解決這個(gè)問題，我們的研究提出了EHNAS框架，該框架通過動態(tài)空間收縮和分層優(yōu)化來加快搜索速度并提高效率。大型語言模型被用作“架構(gòu)專家”，它們可以利用對任務(wù)的先驗(yàn)知識來縮小初始搜索空間，并通過特定指標(biāo)驗(yàn)證搜索空間。此外，還采用了一種分層優(yōu)化過程：首先選擇整體骨架結(jié)構(gòu)，然后通過中間超參數(shù)細(xì)化詳細(xì)連接。通過無訓(xùn)練的代理和進(jìn)化算法實(shí)現(xiàn)了評估加速。還設(shè)計(jì)了一個(gè)名為SF2M的橋接層，以促進(jìn)不同類型模塊之間的特征對齊和融合。在CIFAR-10、ImageNet-1K和PASCAL-VOC2012上的實(shí)驗(yàn)表明，EHNAS在圖像分類任務(wù)中達(dá)到了97.4%和81.9%的Top-1準(zhǔn)確率，在語義分割任務(wù)中達(dá)到了80.33%的mIoU，且最低搜索成本僅為0.018 GPU天。所提出的EHNAS框架具有相對較高的計(jì)算效率。

引言

在過去的幾十年中，深度學(xué)習(xí)在人工智能領(lǐng)域取得了重大突破，特別是在理解圖像、文本和視頻等多模態(tài)數(shù)據(jù)方面表現(xiàn)優(yōu)異。在計(jì)算機(jī)視覺中，相關(guān)方法不僅顯著提高了識別準(zhǔn)確性，還推動了諸如對象檢測（Kang, Hu, Liu, Zhang, & Cao, 2025）等關(guān)鍵任務(wù)在復(fù)雜場景中的廣泛應(yīng)用。在圖像處理中，卷積神經(jīng)網(wǎng)絡(luò)（CNN）如ResNet（He, Zhang, Ren, & Sun, 2016）和Vision Transformer（Dosovitskiy et al., 2020）在不同應(yīng)用中表現(xiàn)出色。最近，基于狀態(tài)空間模型的Vision Mamba（Zhu et al., 2024a）作為一種新架構(gòu)出現(xiàn)，有可能在某些任務(wù)中取代Transformer。CNN長期以來在計(jì)算機(jī)視覺中非常重要，因?yàn)樗鼈兩瞄L提取局部空間特征。相比之下，Vision Transformer使用自注意力機(jī)制來建模全局信息并很好地捕捉長距離依賴性。由于這兩種方法相互補(bǔ)充，研究人員開始設(shè)計(jì)結(jié)合CNN和Transformer的混合架構(gòu)（Chang, Yin, Wang, 2024, Guo, Han, Wu, Tang, Chen, Wang, Xu, 2022, Peng, Huang, Gu, Xie, Wang, Jiao, Ye, 2021）。目標(biāo)是結(jié)合CNN的局部特征學(xué)習(xí)和Transformer的全局建模能力。這些混合模型不僅提高了圖像分類的性能，而且在對象檢測、語義分割和顯著性預(yù)測等下游任務(wù)中也表現(xiàn)良好。這一趨勢表明，結(jié)合局部和全局特征建模是構(gòu)建更好視覺模型的關(guān)鍵。

盡管CNN-Transformer混合模型通常優(yōu)于單一類型的架構(gòu)，但其設(shè)計(jì)過程通常很復(fù)雜，且高度依賴于專家知識和大量的手動調(diào)整。設(shè)計(jì)這類模型需要仔細(xì)決定模塊組成、連接模式和優(yōu)化策略，這大大增加了實(shí)驗(yàn)成本，并限制了其在實(shí)際中的廣泛應(yīng)用。為了解決這個(gè)問題，提出了神經(jīng)架構(gòu)搜索（NAS）作為一種自動化框架，用于發(fā)現(xiàn)特定于任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)（Zoph & Le, 2017）。早期研究表明，自動搜索的架構(gòu)可以比手動設(shè)計(jì)的模型實(shí)現(xiàn)競爭性甚至更優(yōu)的性能，這促使人們開發(fā)出更高效和可擴(kuò)展的NAS方法（Howard, Sandler, Chu, Chen, Chen, Tan, Wang, Zhu, Pang, Vasudevan, et al., 2019, Liu, Zoph, Neumann, Shlens, Hua, Li, Fei-Fei, Yuille, Huang, Murphy, 2018a）。特別是基于進(jìn)化的搜索策略被證明對于處理復(fù)雜和高維的搜索空間非常有效，包括變分自編碼器等生成模型（Shang et al., 2024）。

最近，NAS已經(jīng)發(fā)展到結(jié)合了多種優(yōu)化范式。進(jìn)化方法在搜索過程中明確考慮了多個(gè)目標(biāo)，從而在性能和效率之間實(shí)現(xiàn)了更好的權(quán)衡（Li, Liu, Shang, Jiao, 2025b, Ming, Gong, Xue, Zhang, Jin, 2025）。同時(shí)，可微分的NAS方法將離散搜索空間轉(zhuǎn)化為連續(xù)形式，允許基于梯度的優(yōu)化和更靈活的拓?fù)涮剿鳎≧ao, Zhao, Liu, & Alippi, 2025）。此外，自監(jiān)督NAS框架在保持強(qiáng)大搜索性能的同時(shí)減少了對標(biāo)記數(shù)據(jù)的依賴（Li et al., 2025a）。

盡管在架構(gòu)優(yōu)化方面取得了這些進(jìn)展，但NAS的高計(jì)算成本仍然是一個(gè)關(guān)鍵挑戰(zhàn)，因?yàn)樵u估候選架構(gòu)通常需要大量的訓(xùn)練。為了減輕這一負(fù)擔(dān)，最近的研究探索了無需訓(xùn)練的評估指標(biāo)，這些指標(biāo)可以在不完全優(yōu)化的情況下估計(jì)網(wǎng)絡(luò)質(zhì)量（Dai, Wei, Hu, Sun, Xu, Zhang, Zhao, 2026, Tybl, Neumann, 2025, Zhou, Sheng, Zheng, Li, Tian, Chen, Ji, 2024）。作為架構(gòu)級優(yōu)化的補(bǔ)充，還研究了高效的知識遷移技術(shù)，如動態(tài)知識蒸餾，以在有限的訓(xùn)練預(yù)算下進(jìn)一步提高模型性能（Zhu et al., 2024b），這突顯了在大規(guī)模模型設(shè)計(jì)中減少優(yōu)化開銷的重要性。

在本文中，介紹了一種名為EHNAS的無訓(xùn)練神經(jīng)架構(gòu)搜索方法。該方法使用動態(tài)搜索空間來處理混合模塊，旨在自動化搜索包含多種類型模塊的混合框架，從而減少搜索時(shí)間并提高評估效率。還提出了一種新的橋接層SF2M，用于處理混合架構(gòu)中CNN模塊和自注意力模塊之間的空間特征對齊和融合。該模塊旨在保持參數(shù)開銷較低，同時(shí)實(shí)現(xiàn)對特征空間的對齊并促進(jìn)高效的信息流。因此，它支持在混合框架中的有效架構(gòu)搜索。具體來說，SF2M橋接層使用了一種迭代正交特征融合方法，逐步處理局部和全局特征，從而在結(jié)合這兩種特征時(shí)減少重疊或冗余信息。實(shí)驗(yàn)表明，這種設(shè)計(jì)使混合模型更加健壯和表達(dá)力更強(qiáng)，同時(shí)保持輕量級。

為了解決搜索空間爆炸的問題，我們設(shè)計(jì)了一種使用大型語言模型（LLM）動態(tài)縮小搜索空間的方法。當(dāng)添加更多模塊時(shí)，搜索維度和候選操作會激增，使得原始搜索空間變得太大而無法在合理的時(shí)間內(nèi)探索。主要問題是傳統(tǒng)搜索方法無法有效縮小搜索范圍，導(dǎo)致過程緩慢且效率低下。由于LLM具有強(qiáng)大的推理和代碼生成能力，我們智能地利用它們來移除搜索空間中不必要的部分，只保留合理和高效的區(qū)域進(jìn)行進(jìn)一步探索。我們的方法還包括一種基于ISQM指標(biāo)的反饋機(jī)制，該指標(biāo)在搜索過程中評估每個(gè)子空間的質(zhì)量。這有助于搜索算法專注于最有前途的區(qū)域，避免了傳統(tǒng)基于LLM的搜索方法的黑箱性質(zhì)。

在搜索階段，引入了一種三級搜索策略。它從宏觀架構(gòu)級別逐步向下到超參數(shù)級別，最后到連接模式級別。這種逐步的方法確保每個(gè)階段都能準(zhǔn)確高效地探索最佳選項(xiàng)，從而有效地管理大型搜索空間。為了減少搜索和評估所需的時(shí)間，使用了RBFleX（Yamasaki, Wang, Luo, Chen, & Wang, 2025）得分作為無訓(xùn)練的代理指標(biāo)。這大大提高了搜索效率，使過程更加實(shí)用。我們的主要貢獻(xiàn)如下：

1. 設(shè)計(jì)了一個(gè)支持多種類型模塊的單元級搜索空間。

2. 引入了一種基于LLM的智能剪枝方法，以減少搜索空間大小并避免搜索爆炸。

3. 將Alpha Evolution算法應(yīng)用于NAS，并使用動態(tài)搜索空間開發(fā)了一種無訓(xùn)練的分層搜索方法，用于混合模塊。這種方法顯著提高了搜索效率和架構(gòu)設(shè)計(jì)速度，尤其是在復(fù)雜任務(wù)中。

4. 提出了一種名為SF2M的橋接層，以改善混合架構(gòu)中CNN和自注意力模塊之間的空間特征對齊和融合。

研究空白

在像NAS-Bench-201（Dong & Yang, 2020）這樣的固定搜索空間中，研究人員可以在有限的時(shí)間內(nèi)逐步找到更好的網(wǎng)絡(luò)設(shè)計(jì)，從而提高準(zhǔn)確性。然而，這些固定空間的一個(gè)固有限制是：最佳可能的準(zhǔn)確性受到預(yù)先定義的候選架構(gòu)集的限制。隨著混合架構(gòu)的流行，許多高性能網(wǎng)絡(luò)結(jié)合了卷積層、Transformer和狀態(tài)空間模型。然而，對于NAS來說，

神經(jīng)架構(gòu)搜索

NAS的主要目標(biāo)是在減少手動設(shè)計(jì)工作量的同時(shí)自動發(fā)現(xiàn)高性能的網(wǎng)絡(luò)架構(gòu)。早期的研究主要依賴于強(qiáng)化學(xué)習(xí)來指導(dǎo)搜索過程，每個(gè)候選架構(gòu)都必須進(jìn)行完整訓(xùn)練以進(jìn)行評估，從而導(dǎo)致高昂的計(jì)算成本和漫長的搜索時(shí)間（Zoph & Le, 2017）。為了解決這個(gè)問題，后續(xù)工作引入了進(jìn)化算法和性能預(yù)測器

總結(jié)

本文提出了EHNAS，這是一個(gè)為異構(gòu)視覺混合架構(gòu)設(shè)計(jì)的高效神經(jīng)架構(gòu)搜索框架。為了解決混合神經(jīng)架構(gòu)搜索中的常見問題，如搜索空間的快速增長和跨不同架構(gòu)的泛化難度，EHNAS從三個(gè)方面采用了統(tǒng)一的設(shè)計(jì)，包括架構(gòu)建模、搜索空間優(yōu)化和評估策略。在架構(gòu)層面，EHNAS構(gòu)建了一個(gè)統(tǒng)一的

實(shí)驗(yàn)

我們通過一系列實(shí)驗(yàn)評估了所提出的EHNAS框架的有效性、效率和魯棒性。首先介紹了實(shí)驗(yàn)設(shè)置和數(shù)據(jù)集，然后對圖像分類和語義分割任務(wù)進(jìn)行了全面比較。接著進(jìn)行了消融研究，以分析關(guān)鍵組件的貢獻(xiàn)。最后，我們研究了無訓(xùn)練指標(biāo)與實(shí)際模型性能之間的相關(guān)性，包括

討論

因此，關(guān)于架構(gòu)的先驗(yàn)知識對架構(gòu)的生成有兩種影響。一方面，省略剪枝可能會保留找到針對特定數(shù)據(jù)集的最佳性能架構(gòu)的潛力。另一方面，混合架構(gòu)搜索空間的巨大規(guī)模使得在沒有剪枝的情況下進(jìn)行窮盡搜索在計(jì)算上不可行。因此，在發(fā)現(xiàn)潛力和可行資源消耗之間進(jìn)行權(quán)衡是一個(gè)關(guān)鍵問題

結(jié)論

本文介紹了EHNAS框架，該框架結(jié)合了幾個(gè)關(guān)鍵理念：多模塊混合搜索空間、LLM引導(dǎo)的剪枝、無訓(xùn)練評估的分層搜索策略以及新的SF2M橋接層。這些組件共同幫助解決了神經(jīng)架構(gòu)搜索中搜索空間過大和計(jì)算成本過高的問題。該方法使得在不同領(lǐng)域和嵌入式系統(tǒng)中使用混合架構(gòu)變得更加容易。通過超越依賴傳統(tǒng)NAS方法的方法

未引用的圖表

圖7、表5、表6

作者聲明

張一晨：方法論、軟件、寫作、數(shù)據(jù)組織、資源。胡子宇：研究、審稿和編輯工作。

利益沖突聲明

作者聲明他們沒有已知的競爭性財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文報(bào)告的工作。

相關(guān)新聞

生物通微信公眾號

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

熱搜：NAS|混合架構(gòu)|大語言模型|動態(tài)搜索空間|SF2M橋接層

知名企業(yè)招聘

摘要

引言

研究空白

研究空白

神經(jīng)架構(gòu)搜索

總結(jié)

實(shí)驗(yàn)

討論

結(jié)論

未引用的圖表

作者聲明

利益沖突聲明

熱點(diǎn)排行

新聞專題