久久发布国产伦子伦精品,国产熟女91熟女,99麻豆

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

DREAM：基于注意力混合模型的專家動態路由方法，用于視覺-語言-動作建模

《Knowledge-Based Systems》：DREAM: Dynamic Routing of Experts via Attention-based Mixture for Vision-Language-Action Modeling

【字體：大中小】 時間：2026年02月27日 來源：Knowledge-Based Systems 7.6

編輯推薦：

　　動態路由專家框架DREAM通過AESA模塊和TCAG模塊實現多模態VLA任務的高效專家分配，在CALVIN基準上提升11%任務成功率并減少40%參數調用。

　　
本文針對Vision-Language-Action（VLA）任務中專家分配效率不足的問題，提出動態路由專家混合（DREAM）框架。該研究聚焦于多模態動態環境下的專家系統優化，通過三個核心模塊實現任務成功率與計算效率的雙重提升。

在問題分析層面，VLA任務涉及視覺感知、語言理解和動作規劃三者的實時協同。現有MoE架構存在兩大局限：其一，靜態路由機制無法適應任務復雜度的動態變化，導致高難度任務資源不足或簡單任務資源浪費；其二，傳統專家模塊功能重疊度過高，難以實現多模態信息的精準分工。這種靜態設計在場景切換頻繁、任務需求多變時尤為明顯，例如在機器人抓取過程中既需要精細的手勢控制，又需快速環境感知，傳統架構難以動態調整資源分配。

DREAM框架通過三個創新模塊構建動態專家系統：首先，自適應專家選擇與聚合（AESA）模塊采用分層專家設計，將原始網絡拆分為多個輕量級專家子網絡。這種結構使得專家數量從固定值變為動態可調，配合Top-P路由策略，既能保證復雜任務所需的多專家協作，又能避免簡單任務的多余計算。實驗顯示，該設計使專家參數量減少40%的同時，任務成功率提升11.3%。

核心突破在于時空感知路由機制。時空上下文感知門控（TCAG）模塊將三個關鍵要素融入路由決策：擴散過程的時間步信息作為動態錨點，捕捉任務執行階段的時序特征；跨模態注意力機制融合視覺特征、語言指令和歷史動作，形成多維決策依據；多尺度特征提取網絡分別處理3D視覺、文本語義和動作序列數據，確保不同模態信息的有效整合。這種設計使路由決策準確率提升27.6%，特別是在長序列任務中展現出更強的時序建模能力。

為解決專家激活冗余問題，作者設計了稀疏條件路由效率損失（SCoRE）函數。該損失函數包含兩個優化方向：一是通過對抗訓練增強專家的模態專屬性，使視覺專家更關注空間特征，語言專家側重語義解析；二是采用動態稀疏度約束，在保證任務成功率的前提下，強制模型在多數情況下僅激活5-8個專家。這種雙重優化策略使平均激活專家數從傳統MoE的12個降至7個，同時保持90%以上的任務成功率。

實驗驗證部分展現了DREAM的顯著優勢。在LIBERO數據集的長任務場景（LIBERO-10）中，系統成功率和計算效率分別提升14.2%和31.5%；在CALVIN基準測試中，動作規劃任務完成率達到89.7%，較基線模型提升23.4個百分點。特別值得關注的是資源分配的動態平衡：在低復雜度任務（如取物）中，模型僅激活3-5個專家，計算量減少62%；而面對復雜場景（如物體組裝），專家數量自動擴展至9-12個，同時保持每步推理時間低于0.3秒。

該研究的理論價值體現在建立了動態路由的三維評估體系：時空適應性（動態調整頻率）、模態融合度（跨模態信息利用率）、計算稀疏性（資源分配效率）。實驗數據表明，這三個維度存在顯著相關性，時空特征融合度每提升10%，激活專家數量可減少1.8個，同時保持任務成功率穩定。

應用層面，DREAM框架為多模態AI系統提供了可擴展的架構范式。在機器人領域，系統可根據任務階段自動切換專家組合：初始階段側重環境感知專家，中期加入動作規劃專家，后期強化執行控制專家。這種動態調整機制使機械臂在復雜裝配任務中的成功率從72%提升至89%。在醫療影像分析場景，系統根據診斷階段自動組合視覺分析、文本標注和結果預測專家，診斷準確率提升17.3%。

研究還揭示了動態路由與模型規模的非線性關系。當專家數量超過25個時，性能提升邊際效益遞減，但計算成本呈指數增長。DREAM通過智能路由機制，在20-35個專家區間實現了性能與效率的最佳平衡。這種動態規模控制機制使模型在GPU顯存占用方面減少58%，同時保持SOTA性能水平。

在跨領域遷移方面，作者進行了對比實驗。將DREAM應用于自然語言處理任務（如文本分類），通過調整專家功能模塊和路由策略，在GLUE基準測試中達到92.3%的準確率，較傳統MoE提升6.8%。這驗證了動態路由機制在多模態任務中的普適性。

未來研究方向集中在三個方面：1）動態路由的端到端優化算法，2）輕量化專家知識蒸餾技術，3）跨模態時序建模的通用框架。特別值得關注的是將動態路由機制與神經架構搜索結合，自動生成適合不同VLA場景的專家配置方案。

該研究為多模態大模型開發提供了重要啟示：在保持模塊功能專化的同時，通過動態路由機制實現計算資源的智能分配。這種設計思路不僅適用于機器人控制，在自動駕駛、智能客服等需要多模態實時協同的領域同樣具有廣泛的應用前景。實驗數據顯示，在自動駕駛決策場景中，動態專家分配使系統在突發路況下的響應速度提升40%，決策正確率提高22.5%。這充分證明了DREAM框架在復雜多模態任務中的泛化能力。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號