隨著全球市場從大規模生產轉向工業5.0的超個性化承諾,一場新的工業革命正在進行中,這場革命更重視敏捷性、以人為中心以及定制化,而非可擴展性和一致性。然而,對于中小企業(SMEs)來說,這種轉變更多是理想狀態而非現實。盡管中小企業是大多數經濟的支柱,但由于技術基礎設施有限、預算緊張以及 skilled 勞動力短缺,它們在向大規模定制轉型方面面臨巨大挑戰。歐洲和新興經濟體的最新研究表明,在某些地區,只有3%–5%的中小企業成功采用了工業5.0技術,這使得絕大多數中小企業在面向未來的制造競賽中處于落后風險之中[1],[2]。
除了高實施成本、勞動力培訓和供應鏈復雜性等物流障礙外,缺乏可靠的標準數據以及將這些工業4.0技術與傳統工業系統整合的復雜性,也使得在現有工業環境中部署靈活的機器人系統變得特別具有挑戰性。這些挑戰因系統架構之間的互操作性差距、標準化程度有限以及需要模塊化和可擴展的解決方案以促進整合和降低成本而加劇[1],[3]。盡管現代機器人配備了先進的傳感器,并運行在復雜的機器學習(ML)架構上,但它們仍然難以適應工業任務、環境和實現方式的高度變異性。這部分是由于需要大量的特定任務再訓練,以及傳統ML模型的泛化能力有限,這些模型通常需要大型且高質量的數據集和大量的計算資源來適應新場景[4],[5]。
為了解決這些限制,基礎模型(Foundation Models,FM)作為一種有前景的替代方案應運而生,它們利用大規模多樣化的語料庫進行預訓練,開發出具有增強型遷移學習和零樣本能力的廣泛適用模型[5]。然而,它們的性能取決于大規模、與機器人相關的預訓練數據集的可用性以及豐富的實際人類演示數據,這兩者都需要大量的努力來收集和大量的計算資源。此外,確保安全性、實時性能以及在隨機工業環境中的穩健不確定性量化也是額外的挑戰[6]。這些因素目前限制了基于FM的系統在工業應用中的廣泛采用。正在進行的研究包括基于仿真的訓練、合成數據生成和協作數據共享倡議,這些都在為克服這些障礙鋪平道路,從而實現更可擴展、更適應性和更高效的敏捷機器人系統部署[7]。
鑒于敏捷制造場景中機器人工作空間的動態性質以及FM實現的固有局限性,需要一個能夠超越顯式輸入進行推理的適應性智能框架,能夠進行復雜的解釋和在上下文中的非結構化命令處理。在這方面,基于大型語言模型(LLMs)的現代生成式AI框架,如OpenAI GPT系列和Google Gemini[8],展示了巨大潛力。例如,最近的多模態和多任務模型Gato[9]、PaLM-E[10]和RT-2[11]在整合共享的視覺-語言嵌入表示以生成具體控制命令序列方面表現出色[12],[13]。值得注意的是,這些模型的有效性在很大程度上取決于豐富的感官輸入(如視覺和聽覺感知)以及明確的用戶指令。由此產生的情境感知是實現人機共享工業空間中安全和可靠操作的前提[14],[15]。
無論它們的高級推理能力如何,將“做什么”的認知意圖轉化為“如何做”的可執行運動命令并不簡單,這也是為什么真正的敏捷機器人系統尚未實現的主要原因[16]。為了促進更好的整合,最近的實現方式正從模塊化架構轉向更統一的模型,這些模型考慮了從感知和推理到動作生成的整個流程。這種端到端的設計構成了所謂的GPI的核心理念,有效解決了長期存在的整合難題,如圖1所示[3]。
GPI背后的關鍵技術是VLA模型,它們被歸類為機器人FM,能夠將感知輸入與用戶的自然語言命令融合,形成跨視覺和語言的多模態表示,并將其轉化為物理動作,從而建立通用的控制框架。這些模型旨在實現機器精度與類似人類的細致感知-動作推理之間的協同作用,使它們特別適合復雜的敏捷制造任務,超出了傳統預編程控制協議的能力[17],[18],[19]。
VLA模型在多個領域展示了顯著的能力。例如,MOSAIC[20]展示了它們在零樣本學習方面的能力,無需特定任務訓練和推理即可推斷對象屬性和規劃操作。同時,OrionNav和VLMap通過將多模態嵌入與語義映射相結合,實現了強大的導航能力[21],[22]。像Saycan[23]這樣的模型將自然語言指令轉化為可行的結構化計劃,并將其轉化為低級控制命令[24],從而彌合了口頭指令與高級規劃之間的差距。盡管取得了進展,但這些模型在很大程度上仍局限于特定領域且缺乏上下文性。因此,它們未能捕捉到GPI試圖體現的更廣泛視角,即一個能夠同時學習和跨不同感官和認知模式傳遞知識的通用和統一模型。
雖然VLA模型為GPI奠定了基礎,但它們主要依賴于語言-視覺信息。然而,在工業環境中,視覺感知往往是部分的或被遮擋的,因此無法完全捕捉場景的動態。因此,特別是對于涉及接觸的精細操作和滑動檢測任務,必須整合補充的感知模式——尤其是觸覺反饋和反射感知。這種互補的感知方式催生了世界模型的概念,這些模型通過多模態傳感器整合以及未來狀態的預測模擬,在提升技術就緒水平(TRLs)方面發揮了關鍵作用。通過這種方式,這些系統提高了性能,并減少了與實際實驗相關的風險、成本和迭代時間[25],[26]。通過封裝控制系統-環境交換的底層物理動態,世界模型支持穩健的決策制定和長期規劃[27],[28]。NVIDIA Cosmos通過采用生成式架構為復雜應用建模高保真環境動態,清楚地展示了此類模型[29],但其自回歸預測存在輸出模糊的問題,并且對條件輸出敏感。
此外,一個能夠在動態環境中實現穩健推理和動作生成的通用模型應結合主要特征,包括來自VLA的語義理解、來自觸覺界面的物理感知以及來自世界模型的預測性洞察力。這三個支柱的融合使得GPI可以通過語音、觸覺和反射指令直觀地引導,從而滿足敏捷制造環境中人機共存的核心要求。
總體而言,GPI旨在通過促進整合感知、推理和動作的通用模型來超越特定領域的學習,同時保持與真實環境條件的物理聯系。這種適應性對于實現工業5.0的以人為中心的理念至關重要,并激發了本綜述論文探討的研究方向。因此,本文(圖2)提出了以下研究問題:
- •
現有的VLA基礎模型在敏捷制造環境中實現GPI的技術可行性如何,特別是在涉及大量接觸的交互任務中?
- •
將VLA模型轉化為具有物理基礎和安全意識的GPI系統需要哪些數據基礎、多模態融合機制和分層控制架構?
- •
基于現有VLA模型構建的不同GPI實現(包括Gato-GPI、RT2-GPI、PaLM-E-GPI、OpenVLA-GPI)在代表性工業基準測試(例如,無螺栓組裝和木材盒構建)中,在成功率、泛化能力、姿態精度和任務級周期時間方面可能有哪些權衡?
本文的其余部分組織如下:第2節系統地回顧了GPI的基礎模型,并將其分為六個主題關鍵點。第3節提出了GPI框架,并通過消融研究驗證了其設計,量化了每個組件對整體系統性能的貢獻。第4節討論了實際應用GPI的挑戰,并概述了未來的研究方向。最后,第5節總結了主要發現,并強調了工業采用的前景。