玖玖国产,精品一区二区三区四区,人妻熟女一区二区三区APP下载

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

通過基于視覺-語言模型的乘客識別技術提升機器人出租車的接客效率

《IEEE Transactions on Intelligent Transportation Systems》：Enhancing Robotaxi Pick-Up Through Vision-Language-Model-Based Passenger Identification

【字體：大中小】 時間：2026年02月27日 來源：IEEE Transactions on Intelligent Transportation Systems 8.4

編輯推薦：

　　Robotaxis作為城市交通的重要組成部分，預設上車點導致活動集中、交通擁堵、繞路等問題，且GNSS定位在城區不可靠。本文提出VLMIdentification框架，通過多模態交互（文本/語音）和實時視覺識別（LVLM）實現精準乘客定位，包含輸入處理、候選搜索、身份匹配三模塊，并構建HID數據集驗證其魯棒性和跨場景泛化能力。

摘要：

機器人出租車正成為城市交通的關鍵組成部分。然而，目前大多數機器人出租車依賴于預設的接客點，這導致機器人出租車活動集中，加劇了局部交通擁堵，增加了空駛距離和繞行距離，延長了道路占用時間，并提高了運營成本。基于GNSS的定位技術在城市區域可能不可靠。通常，人類駕駛員可以通過文本/語音交互與乘客溝通，以準確找到并到達乘客的位置。如何將機器人出租車的視覺識別結果與人類的文本/語音描述對齊是一個關鍵挑戰。因此，我們提出了一個全面的框架，包括其架構、需求、操作邏輯和工作流程，以增強乘客與機器人出租車之間的互動，從而實現無需預設接客點的準確接客。在該框架中，核心算法是VLMIdentification，這是一種基于LVLM的實時人類識別模型。VLMIdentification包含三個模塊：i) 人類輸入處理，從乘客的文本/語音中提取文本特征，并將以人類為中心的描述轉換為以機器人出租車為中心的屬性；ii) 候選者搜索，將傳統檢測器與LVLM結合使用，以適應場景復雜性并將檢測結果轉換為文本描述符；iii) 人類識別，將處理后的乘客描述與候選者進行匹配，以找到正確的人。我們定義了多模態任務的人類識別方法，提出了評估指標，并基于現有的自動駕駛數據集構建了一個新的HID（帶描述的人類識別）數據集。實驗結果表明，VLMIdentification在綜合指標上優于基線方法，并且在惡劣環境和跨場景泛化測試中保持了穩健的性能，從而證實了其泛化和魯棒性。代碼可在以下鏈接獲取：https://github.com/fanwu66/V...

引言

在現代交通系統中，出租車長期以來一直通過提供靈活便捷的交通服務發揮著重要作用。隨著智能聯網車輛的進步，由自動駕駛技術驅動的出租車（即機器人出租車）逐漸成為自動駕駛平臺的核心應用形式。機器人出租車繼承了傳統出租車的交通服務價值，同時通過自動駕駛技術在安全性、效率和運營模式方面引入了創新。截至2025年8月，全球機器人出租車已提供了超過3000萬次出行服務。從傳統的人工駕駛出租車到機器人出租車[1]、[2]，智能車輛正在逐步改變傳統的交通服務模式，未來甚至可能出現自動駕駛公交車和貨運卡車[3]、[4]、[5]。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號