《ADVANCED ENGINEERING INFORMATICS》:VLM-PoseManip: Dexterous robotic manipulation via Vision-Language model based instructive pose estimation for Human-Robot collaboration
編輯推薦:
人機協(xié)作中基于語義空間推理與擴散模型的6D姿態(tài)估計及幾何引導(dǎo)抓取框架,有效解決復(fù)雜工具靈巧操作中的語義理解與物理精度不足問題,實驗顯示執(zhí)行準確率達92%,任務(wù)成功率83%,平均耗時5.25秒。
王瑩光|裴文燦|高一平|劉晨毅|李新宇|高亮
華中科技大學(xué)機械科學(xué)與工程學(xué)院,中國武漢430074
摘要
基于開放集指令的靈巧機器人操控是人機協(xié)作(HRC)的基礎(chǔ),使機器人能夠理解人類意圖并在動態(tài)的智能制造環(huán)境中進行交互。盡管最近的視覺-語言-動作(VLA)模型和分層框架在語義任務(wù)規(guī)劃方面取得了顯著進展,但它們往往缺乏工業(yè)工具操控所需的幾何精度和物理感知的接觸推理能力。現(xiàn)有方法通常依賴于隱式映射或稀疏的關(guān)鍵點約束,這在處理具有復(fù)雜幾何形狀的開放集工具時常常導(dǎo)致抓取結(jié)構(gòu)不穩(wěn)定。這些限制常常導(dǎo)致任務(wù)指令的誤解、物體定位不準確以及操控行為不穩(wěn)定,最終導(dǎo)致任務(wù)失敗。為了解決這些問題,本文提出了VLM-PoseManip框架,該框架整合了語義-空間推理、指令性6D姿態(tài)估計和幾何引導(dǎo)的操控優(yōu)化,以實現(xiàn)精細化和任務(wù)感知的靈巧操控。通過利用大型語言模型(LLMs)和視覺語言模型(VLMs)進行語義解析和可供性定位,擴散模型進行類別級別的6D姿態(tài)估計,以及多因素抓取質(zhì)量評估來進行操控規(guī)劃,其中估計的6D姿態(tài)進一步通過逆向運動學(xué)(IK)轉(zhuǎn)化為可解釋且?guī)缀尉_的末端執(zhí)行器運動。在實驗室環(huán)境中使用指令驅(qū)動的推理和動態(tài)任務(wù)操控來評估所提出的框架,該框架在工具類別和各種任務(wù)中展現(xiàn)了強大的泛化能力。值得注意的是,我們的方法實現(xiàn)了92.0%的語義執(zhí)行準確率、83.0%的平均任務(wù)成功率以及不到5.25秒的平均完成時間,從而推動了HRC中復(fù)雜場景下的靈巧操控技術(shù)。
引言
現(xiàn)代智能制造越來越依賴于能夠處理復(fù)雜、動態(tài)協(xié)作任務(wù)的靈活和適應(yīng)性強的機器人系統(tǒng),特別是在個性化定制和非結(jié)構(gòu)化工業(yè)環(huán)境中[1]。這些場景要求協(xié)作機器人執(zhí)行高精度操控,并靈活解釋多樣化的自然語言指令。此外,它們必須根據(jù)變化的物體和工作流程動態(tài)調(diào)整操作策略[2]。然而,滿足這些多維度需求面臨著重大挑戰(zhàn)。主要瓶頸包括在協(xié)作任務(wù)中理解復(fù)雜指令、在動態(tài)環(huán)境中精確感知細粒度物體姿態(tài),以及缺乏有效的靈巧操控模式規(guī)劃方法[3]。這些限制共同阻礙了機器人系統(tǒng)在復(fù)雜的人機協(xié)作(HRC)場景中的部署和有效應(yīng)用。
傳統(tǒng)的機器人操控流程主要采用預(yù)定義的動作序列、視覺感知或教學(xué)編程技術(shù)。雖然這些方法在結(jié)構(gòu)化環(huán)境中有效,但在動態(tài)、非結(jié)構(gòu)化的工業(yè)環(huán)境中,它們在適應(yīng)性和泛化應(yīng)用方面存在顯著局限性[4]。為了解決傳統(tǒng)方法中普遍存在的泛化能力差和語義理解有限的問題,視覺-語言-動作(VLA)模型作為一種集成架構(gòu)應(yīng)運而生,它融合了視覺感知、語言語義和動作控制。通過利用深度多模態(tài)特征融合,VLA模型使機器人能夠理解自然語言指令并在開放式場景中進行多模態(tài)決策。例如,RT-2 [5]和TinyVLA [6]等先進框架顯著提升了機器人在新物體類別和未見過的操控指令下的泛化能力。然而,這些方法主要關(guān)注高級任務(wù)理解和直接命令到動作的映射,往往缺乏對適應(yīng)性可供性識別和操控精細化的中間推理機制,而這在HRC中至關(guān)重要。
為了解決這些挑戰(zhàn),最近的研究探索了結(jié)構(gòu)化推理架構(gòu)。CoT-VLA [7]通過中間子目標圖像生成引入了可解釋的視覺思維鏈,使VLA模型能夠進行顯式的視覺任務(wù)分解。ManipVQA [8]將操作知識(如工具檢測和可用性識別)注入多模態(tài)大型語言模型(LLM)和視覺語言模型(VLM)中,而AffordDexGrasp [9]通過分層能力表示擴展了開放集靈巧抓取。然而,特別是在需要高精度物理交互的工業(yè)環(huán)境中,仍存在重大挑戰(zhàn)。一個主要限制是大多數(shù)VLA框架依賴于直接的端到端映射策略。雖然這種“黑箱”范式提供了強大的語義泛化能力,但它犧牲了傳統(tǒng)模塊化流程中固有的幾何確定性和物理可解釋性。在沒有基于姿態(tài)的逆向運動學(xué)(IK)的顯式指導(dǎo)的情況下,VLA模型往往難以保證執(zhí)行的可解釋性和幾何精度,導(dǎo)致開放集細粒度姿態(tài)跟蹤和靈巧仿生手操控策略的不穩(wěn)定性。
同時,最近的分層或閉環(huán)視覺-語言操控系統(tǒng)(如π0 [10]、RoboDex VLM [11]、ReKep [12]和OmniManip [13])開始將指令理解與中間表示和在線校正相結(jié)合。然而,這些系統(tǒng)通常仍然沒有提供顯式的姿態(tài)到IK接口和物理感知的接觸推理,這對于HRC環(huán)境中的靈巧工具操控至關(guān)重要,尤其是在動態(tài)運動、部分可觀測性和高語義復(fù)雜性情況下。這激發(fā)了一個統(tǒng)一框架的需求,該框架能夠?qū)⒄Z言層面的意圖理解與幾何精確的目標和物理兼容的靈巧執(zhí)行聯(lián)系起來。
出于緊密連接語義理解和物理執(zhí)行的需要,本文提出了VLM-PoseManip框架,該框架將視覺-語言推理與精確操控相結(jié)合。具體而言,本文關(guān)注機器人操控中關(guān)鍵的可供性感知和傳輸階段,這些階段是成功下游協(xié)作任務(wù)的物理前提。該框架的主要貢獻有三個方面:
- 1.
語義-空間推理模塊:一種協(xié)同的LLM-VLM架構(gòu),通過聯(lián)合語義-空間感知實現(xiàn)精確的自然語言指令解釋和任務(wù)相關(guān)可供性表示的提取,從而促進穩(wěn)健的物體分類和功能區(qū)域識別。
- 2.
基于擴散的6D姿態(tài)估計:一個類別級別的跟蹤模塊通過擴散模型提高目標姿態(tài)估計的準確性,為后續(xù)操控提供空間指導(dǎo)。估計的6D姿態(tài)進一步作為逆向運動學(xué)求解的目標,與VLA框架中的直接動作映射相比,提高了可解釋性和幾何精度。
- 3.
物理約束操控策略:一種基于幾何深度的方法結(jié)合質(zhì)量指標來優(yōu)化靈巧手的定位,并通過接觸穩(wěn)定性分析提高物理兼容性。
實驗表明,VLM-PoseManip在高度語義復(fù)雜的任務(wù)中顯著優(yōu)于現(xiàn)有的最佳基線方法,實現(xiàn)了穩(wěn)健的指令理解和穩(wěn)定的抓取執(zhí)行。這些發(fā)現(xiàn)驗證了將語義理解與幾何精度相結(jié)合在智能HRC中的有效性。為了將我們的工作置于更廣泛的背景下,我們在第2節(jié)的表1中提供了VLM-PoseManip與代表性最佳系統(tǒng)(包括VLA和分層方法)之間的全面定性比較。本文的其余部分組織如下:第2節(jié)分析多模態(tài)機器人操控的技術(shù)演進和挑戰(zhàn)。第3節(jié)詳細介紹了VLM-PoseManip的三層架構(gòu)和算法實現(xiàn)。第4節(jié)展示了該方法在準確性、泛化和魯棒性方面的優(yōu)勢。第5節(jié)討論了限制和未來研究方向。
章節(jié)片段
任務(wù)的推理與感知
LLMs和VLMs的最新進展徹底改變了HRC中的機器人感知和推理能力[14]。傳統(tǒng)方法通常依賴于命令和動作之間的規(guī)則基或符號映射,這些方法在動態(tài)工業(yè)場景中顯示出適應(yīng)性不足[15]。隨著LLMs的出現(xiàn),范式轉(zhuǎn)向了數(shù)據(jù)驅(qū)動的語義推理,使機器人能夠解釋廣泛的自然語言指令以推斷結(jié)構(gòu)化任務(wù)
視覺-語言引導(dǎo)的靈巧操控框架
為了解決非結(jié)構(gòu)化工業(yè)環(huán)境中的適應(yīng)性HRC問題,我們提出了VLM-PoseManip,這是一個統(tǒng)一的框架,它將高級指令理解與物理基礎(chǔ)的靈巧執(zhí)行聯(lián)系起來。我們的設(shè)計目標是將開放式語言命令轉(zhuǎn)換為可解釋的中間目標——包括任務(wù)相關(guān)的可供性區(qū)域和時間一致的6D物體姿態(tài)——這些目標可以驗證其幾何和物理可行性,然后通過幾何感知的
實驗設(shè)置和數(shù)據(jù)集
為了全面評估所提出的VLM-PoseManip框架的有效性、魯棒性和工業(yè)適用性,我們設(shè)計了一個包含兩個不同階段的結(jié)構(gòu)化實驗協(xié)議:感知模型評估和實際操作執(zhí)行。對于視覺-語言和姿態(tài)估計模塊的訓(xùn)練和定量評估,我們使用了HANDAL [46]數(shù)據(jù)集。選擇這個數(shù)據(jù)集是因為它具有高多樣性和與工業(yè)工具的相關(guān)性
結(jié)論與未來工作
本文提出了VLM-PoseManip,這是一個統(tǒng)一的框架,它整合了語義-空間推理、基于擴散的6D姿態(tài)估計和幾何引導(dǎo)的靈巧操控,以解決HRC中的關(guān)鍵挑戰(zhàn)。該框架在多種工具類別和指令類型中表現(xiàn)出高性能,在低語義復(fù)雜性和高語義復(fù)雜性場景中都能實現(xiàn)穩(wěn)健的執(zhí)行。與現(xiàn)有的基于VLA的方法相比,我們的方法
CRediT作者貢獻聲明
王瑩光:寫作——審閱與編輯,撰寫原始草稿,可視化,方法論,形式分析,數(shù)據(jù)整理,概念化。裴文燦:寫作——審閱與編輯,撰寫原始草稿,驗證,數(shù)據(jù)整理。高一平:寫作——審閱與編輯,監(jiān)督。劉晨毅:寫作——審閱與編輯,可視化。李新宇:寫作——審閱與編輯,監(jiān)督。高亮:寫作——審閱與編輯,監(jiān)督,資金獲取。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務(wù)利益或個人關(guān)系可能會影響本文報告的工作。
致謝
本工作得到了國家自然科學(xué)基金的資助(編號:52205523,52188102)。