亚洲激情偷拍,熟妇自搞,亚洲一区二区av

綜述：以人為中心的通用身體智能在敏捷制造自動化中的應用

《Advanced Engineering Informatics》：Human centric general physical intelligence for agile manufacturing automation

【字體：大中小】 時間：2026年03月03日 來源：Advanced Engineering Informatics 9.9

編輯推薦：

　　本文系統綜述了Vision-Language-Action（VLA）模型在General Physical Intelligence（GPI）框架下的技術進展，分析其在工業場景中的多模態感知、時空推理及物理行動生成的應用挑戰，通過對比主流VLA模型（如Gato-GPI、RT2-GPI）在裝配和建造任務中的性能差異，提出融合世界模型與觸覺反饋的增強方案，為 Industry 5.0中人機協作制造提供理論支撐與實踐路徑。

東北大學，354 Richards Hall，360 Huntington Avenue，波士頓，02115，MA，美國

摘要

敏捷的以人為中心的制造越來越需要能夠在現代工廠的非結構化環境中安全、高效互動的機器人解決方案。雖然多模態傳感器融合提供了全面的情境感知能力，但機器人還必須將其推理置于具體情境中，以實現對復雜場景的深入語義理解。特別是視覺-語言-行動（VLA）模型作為整合多種感知模式和時空推理能力的方法，為實現通用物理智能（GPI）在各種機器人實現中發揮了重要作用。盡管GPI在文獻中已有概念性討論，但其在敏捷制造中的關鍵作用和實際應用仍待探索。為了解決這一差距，本實踐綜述系統地回顧了VLA模型的最新進展，通過比較分析領先實現，并通過結構化的消融研究評估了它們的工業適用性。綜述內容分為六個主題部分，包括多感官表示學習、仿真到現實轉移、規劃與控制、不確定性及安全措施以及基準測試。最后，綜述指出了將GPI整合到工業生態系統中的開放性挑戰和未來方向，以符合工業5.0關于智能、適應性和協作制造生態系統的愿景。

引言

隨著全球市場從大規模生產轉向工業5.0的超個性化承諾，一場新的工業革命正在進行中，這場革命更重視敏捷性、以人為中心以及定制化，而非可擴展性和一致性。然而，對于中小企業（SMEs）來說，這種轉變更多是理想狀態而非現實。盡管中小企業是大多數經濟的支柱，但由于技術基礎設施有限、預算緊張以及 skilled 勞動力短缺，它們在向大規模定制轉型方面面臨巨大挑戰。歐洲和新興經濟體的最新研究表明，在某些地區，只有3%–5%的中小企業成功采用了工業5.0技術，這使得絕大多數中小企業在面向未來的制造競賽中處于落后風險之中[1]，[2]。

除了高實施成本、勞動力培訓和供應鏈復雜性等物流障礙外，缺乏可靠的標準數據以及將這些工業4.0技術與傳統工業系統整合的復雜性，也使得在現有工業環境中部署靈活的機器人系統變得特別具有挑戰性。這些挑戰因系統架構之間的互操作性差距、標準化程度有限以及需要模塊化和可擴展的解決方案以促進整合和降低成本而加劇[1]，[3]。盡管現代機器人配備了先進的傳感器，并運行在復雜的機器學習（ML）架構上，但它們仍然難以適應工業任務、環境和實現方式的高度變異性。這部分是由于需要大量的特定任務再訓練，以及傳統ML模型的泛化能力有限，這些模型通常需要大型且高質量的數據集和大量的計算資源來適應新場景[4]，[5]。

為了解決這些限制，基礎模型（Foundation Models，FM）作為一種有前景的替代方案應運而生，它們利用大規模多樣化的語料庫進行預訓練，開發出具有增強型遷移學習和零樣本能力的廣泛適用模型[5]。然而，它們的性能取決于大規模、與機器人相關的預訓練數據集的可用性以及豐富的實際人類演示數據，這兩者都需要大量的努力來收集和大量的計算資源。此外，確保安全性、實時性能以及在隨機工業環境中的穩健不確定性量化也是額外的挑戰[6]。這些因素目前限制了基于FM的系統在工業應用中的廣泛采用。正在進行的研究包括基于仿真的訓練、合成數據生成和協作數據共享倡議，這些都在為克服這些障礙鋪平道路，從而實現更可擴展、更適應性和更高效的敏捷機器人系統部署[7]。

鑒于敏捷制造場景中機器人工作空間的動態性質以及FM實現的固有局限性，需要一個能夠超越顯式輸入進行推理的適應性智能框架，能夠進行復雜的解釋和在上下文中的非結構化命令處理。在這方面，基于大型語言模型（LLMs）的現代生成式AI框架，如OpenAI GPT系列和Google Gemini[8]，展示了巨大潛力。例如，最近的多模態和多任務模型Gato[9]、PaLM-E[10]和RT-2[11]在整合共享的視覺-語言嵌入表示以生成具體控制命令序列方面表現出色[12]，[13]。值得注意的是，這些模型的有效性在很大程度上取決于豐富的感官輸入（如視覺和聽覺感知）以及明確的用戶指令。由此產生的情境感知是實現人機共享工業空間中安全和可靠操作的前提[14]，[15]。

無論它們的高級推理能力如何，將“做什么”的認知意圖轉化為“如何做”的可執行運動命令并不簡單，這也是為什么真正的敏捷機器人系統尚未實現的主要原因[16]。為了促進更好的整合，最近的實現方式正從模塊化架構轉向更統一的模型，這些模型考慮了從感知和推理到動作生成的整個流程。這種端到端的設計構成了所謂的GPI的核心理念，有效解決了長期存在的整合難題，如圖1所示[3]。

GPI背后的關鍵技術是VLA模型，它們被歸類為機器人FM，能夠將感知輸入與用戶的自然語言命令融合，形成跨視覺和語言的多模態表示，并將其轉化為物理動作，從而建立通用的控制框架。這些模型旨在實現機器精度與類似人類的細致感知-動作推理之間的協同作用，使它們特別適合復雜的敏捷制造任務，超出了傳統預編程控制協議的能力[17]，[18]，[19]。

VLA模型在多個領域展示了顯著的能力。例如，MOSAIC[20]展示了它們在零樣本學習方面的能力，無需特定任務訓練和推理即可推斷對象屬性和規劃操作。同時，OrionNav和VLMap通過將多模態嵌入與語義映射相結合，實現了強大的導航能力[21]，[22]。像Saycan[23]這樣的模型將自然語言指令轉化為可行的結構化計劃，并將其轉化為低級控制命令[24]，從而彌合了口頭指令與高級規劃之間的差距。盡管取得了進展，但這些模型在很大程度上仍局限于特定領域且缺乏上下文性。因此，它們未能捕捉到GPI試圖體現的更廣泛視角，即一個能夠同時學習和跨不同感官和認知模式傳遞知識的通用和統一模型。

雖然VLA模型為GPI奠定了基礎，但它們主要依賴于語言-視覺信息。然而，在工業環境中，視覺感知往往是部分的或被遮擋的，因此無法完全捕捉場景的動態。因此，特別是對于涉及接觸的精細操作和滑動檢測任務，必須整合補充的感知模式——尤其是觸覺反饋和反射感知。這種互補的感知方式催生了世界模型的概念，這些模型通過多模態傳感器整合以及未來狀態的預測模擬，在提升技術就緒水平（TRLs）方面發揮了關鍵作用。通過這種方式，這些系統提高了性能，并減少了與實際實驗相關的風險、成本和迭代時間[25]，[26]。通過封裝控制系統-環境交換的底層物理動態，世界模型支持穩健的決策制定和長期規劃[27]，[28]。NVIDIA Cosmos通過采用生成式架構為復雜應用建模高保真環境動態，清楚地展示了此類模型[29]，但其自回歸預測存在輸出模糊的問題，并且對條件輸出敏感。

此外，一個能夠在動態環境中實現穩健推理和動作生成的通用模型應結合主要特征，包括來自VLA的語義理解、來自觸覺界面的物理感知以及來自世界模型的預測性洞察力。這三個支柱的融合使得GPI可以通過語音、觸覺和反射指令直觀地引導，從而滿足敏捷制造環境中人機共存的核心要求。

總體而言，GPI旨在通過促進整合感知、推理和動作的通用模型來超越特定領域的學習，同時保持與真實環境條件的物理聯系。這種適應性對于實現工業5.0的以人為中心的理念至關重要，并激發了本綜述論文探討的研究方向。因此，本文（圖2）提出了以下研究問題：

•
現有的VLA基礎模型在敏捷制造環境中實現GPI的技術可行性如何，特別是在涉及大量接觸的交互任務中？
•
將VLA模型轉化為具有物理基礎和安全意識的GPI系統需要哪些數據基礎、多模態融合機制和分層控制架構？
•
基于現有VLA模型構建的不同GPI實現（包括Gato-GPI、RT2-GPI、PaLM-E-GPI、OpenVLA-GPI）在代表性工業基準測試（例如，無螺栓組裝和木材盒構建）中，在成功率、泛化能力、姿態精度和任務級周期時間方面可能有哪些權衡？

本文的其余部分組織如下：第2節系統地回顧了GPI的基礎模型，并將其分為六個主題關鍵點。第3節提出了GPI框架，并通過消融研究驗證了其設計，量化了每個組件對整體系統性能的貢獻。第4節討論了實際應用GPI的挑戰，并概述了未來的研究方向。最后，第5節總結了主要發現，并強調了工業采用的前景。

部分摘錄

通用物理智能框架和消融研究

通用物理智能（GPI）是指機器人代理通過映射多模態感官輸入（包括視覺、語言、本體感知、觸覺、機器狀態）到物理動作的能力，這些輸入和動作跨越不同的實現和任務。這不僅需要先進的數據驅動模型，還需要物理定律和模型的明確整合，以實現穩健、可解釋和可泛化的行為[136]，[137]。GPI策略可以表示為

挑戰與建議

追求通用物理智能（GPI）有望通過使機器人超越僵化和預編程的行為，實現更適應性的系統，能夠在多樣化和非結構化的環境中進行靈活的感知、規劃和交互。然而，通過VLA模型實現工業上可行的GPI需要克服幾個基礎挑戰，包括：

結論

本實踐綜述系統地回顧了作為實現通用物理智能（GPI）基礎技術的視覺-語言-行動（VLA）模型的最新進展。我們的目標是評估這些強大模型在工業應用中的當前準備情況，并識別仍存在的關鍵差距。通過包括多感官表示學習在內的主題化文獻回顧，

CRediT作者貢獻聲明

Sandeep Kanta：概念化、形式分析。

Mehrdad Tavassoli：調查、資源獲取。

Varun Teja Chirkuri：監督、可視化。 Venkata Akhil Kumar：項目管理、寫作 - 審稿與編輯。 Santhi Bharath Punati：項目管理、監督。 Praveen Damacharla：寫作 - 原稿撰寫、審稿與編輯。 Sunny Katyara：方法論、驗證。

利益沖突聲明

作者聲明他們沒有可能影響本文工作的財務、專業或個人利益沖突。所有隸屬關系和資金來源均已披露，且沒有任何一項與研究方法、結果或解釋存在沖突。

摘要

引言

部分摘錄

最新框架

通用物理智能框架和消融研究

挑戰與建議

結論

CRediT作者貢獻聲明

利益沖突聲明

熱點排行

新聞專題