jiZZjiZZ欧美69,无码精品黑人,亚洲天堂无码

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

GeoNav：通過雙尺度地理空間推理能力提升大語言模型（MLLMs），以實現語言引導的空中導航

《Pattern Recognition》：GeoNav: Empowering MLLMs with Dual-Scale Geospatial Reasoning for Language-Goal Aerial Navigation

【字體：大中小】 時間：2026年03月03日 來源：Pattern Recognition 7.6

編輯推薦：

　　地理空間意識無人機導航系統通過構建全局簡化的認知地圖和局部詳細的有層次場景圖，結合大語言模型的多階段推理機制，有效提升了城市復雜環境中的導航成功率。

徐浩天|胡月|高晨|朱正秋|趙勇|尹全軍

國防科技大學系統工程學院，中國長沙，410073

摘要

語言目標空中導航要求無人機根據文本指令在復雜的室外環境（如城市街區）中定位目標。由于物體模糊、視野受限以及空間推理能力不足，室內導航方法往往難以應用于城市場景。在這項工作中，我們提出了具有地理空間感知能力的多模態代理GeoNav，用于遠程空中導航。GeoNav分為三個階段：地標導航、目標搜索和精確定位——模仿人類從粗略到精細的空間推理過程。為了支持這種推理，它動態構建了雙尺度空間表示。第一種是全局性的概念地圖，將先前的地理知識和視覺線索融合成自上而下且明確標注的形式，通過直觀的地圖推理實現快速導航到地標區域。第二種是局部性的場景圖，表示地標和物體之間的層次化空間關系，用于精確定位目標。在CityNav基準測試中，GeoNav的成功率比當前最佳技術高出18.4%，并顯著減少了導航誤差。消融研究強調了每個模塊的重要性，將結構化空間感知視為先進無人機導航的關鍵。

引言

語言目標空中導航[1] [2]是體現智能研究中的一個新興任務，其中無人機（UAV）需要理解自然語言指令并解釋空間概念，以在未見過的室外環境中導航到目標。這對于城市治理和公共服務（如應急響應、空中物流和安全巡邏[3] [4] [5] [6]）具有重大潛力。

城市環境本身富含興趣點（POIs），即導航中的地標，其地理信息易于獲取。然而，大多數現有的空中導航方法忽略了利用這些知識。相反，它們采用了以自我為中心的視覺-語言匹配范式[7]，類似于地面導航中使用的架構[8] [9] [10]。雖然這些方法在小型場景中有效，但在擴展到更大的城市環境時通常會失敗。

相比之下，本文關注一個具有實際意義的特定場景，即基于地標地理先驗的空中導航，這是一個全新的且具有挑戰性的任務，最近通過CityNav基準測試得到了驗證[11]。盡管無人機具備從高處觀察和探索廣闊空域的能力，但這項任務仍面臨三個關鍵挑戰。

•

視覺語義的模糊性：

與室內場景不同，城市實體在視覺上具有相當大的模糊性[12] [13]。結構相似的物體（例如，復雜的建筑群中的特定建筑物、停車場中的車輛）的普遍存在需要基于地理空間參考表達進行識別。

•

多尺度空間推理：

城市環境包含超出直接視野范圍的宏觀尺度元素（例如，道路網絡、區域）和可以直接觀察到的微觀尺度實體（例如，建筑物、車輛）。缺乏整合多層次知識的有效空間表示對大規模和適應性空間推理構成了根本性挑戰。

•

長距離規劃：

遠程空中導航任務涉及多個階段，包括目標物體不在視線范圍內的情況[16] [17] [18]。缺乏基于上下文的決策制定使得代理在變化的情況下策略不夠靈活。

為了解決這些挑戰，我們提出了GeoNav，這是一種零樣本代理方法，它將城市地理知識和體現式感知結合起來用于空中導航。如圖1所示，GeoNav利用地標先驗和多模態大語言模型（MLLM）通過結構化記憶和任務分解來執行顯式的空間推理。

GeoNav遵循三階段、從粗略到精細的工作流程，這一流程受到人類在陌生的大城市中定位目標的啟發：（1）地標導航——朝著具有已知位置甚至幾何外觀的粗粒度地理地標導航（例如，“靠近火車站”）；（2）目標搜索——在本地地標區域內搜索與目標描述匹配的物體；（3）精確定位——最終決策以確定目標位置。通過整合多分辨率空間知識，這種分階段的過程比端到端方法更高效。

為了便于導航到指定的地標，GeoNav構建了一個全局性的但概念地圖（SCM），明確標注了無人機、地標和觀察到的物體的位置。這種粗略但直觀的地圖使GeoNav能夠了解所需的方向和距離。然后，為了支持目標定位的推理，GeoNav在地標周圍構建了一個層次化場景圖（HSG）作為結構化的空間記憶。它包含兩種類型的節點：（1）地理節點，如街區或地標，由先驗知識構建；（2）對象節點，具有從自上而下觀察中提取的語義和空間屬性。節點之間的關系（例如，“附近”、“內部”）隨著探索的進行而動態更新。

為了連接感知和推理，我們設計了一個基于LLM的任務規劃器和階段條件化推理機制。在導航的每個階段，系統生成特定階段的理由提示，包括子目標和期望狀態描述，這些提示會查詢具有結構化空間記憶的MLLM以產生行動級別的建議。

這項工作有三個主要貢獻。

我們提出了一種階段感知的調度和推理機制，用于語言目標空中導航，通過結構化和多模態的理由以及思維鏈（CoTs）逐步分解和解決任務。

為了支持跨尺度導航，GeoNav融合了文本地理先驗、指令和視覺觀察，構建了雙尺度的空間表示，以促進快速導航和精確定位。

在具有挑戰性的CityNav城市導航基準測試上的廣泛評估表明，GeoNav在導航成功率和效率方面顯著優于典型基線。

任務表述

我們遵循帶有地理信息的語言目標空中導航任務[11]，其中輸入被定義為一個三元組

I = {T, K, O_{t} ∣ t\in[0, T)}

. 一個自然語言描述

T

，由一系列單詞組成

{w_{1}, w_{2}, ?, w_{N}}

指定了導航目標以及周圍地標及其空間關系。在時間步

t = 0

，代理獲得了一組地理先驗

K = {k_{1}, ?, k_{m}}

，其中每個

k_{i} = 〈 l_{i}, c_{i} 〉

表示一個地標描述

l_{i} \in L

和一個區域輪廓

c_{i} \in C

方法

GeoNav包括三個關鍵模塊：多階段導航策略（MNS）、概念地圖（SCM）和層次化場景圖（HSG）。如圖2所示，工作流程在兩個維度上展開。水平上，它從粗略到精細的階段進行，包括導航、搜索和定位，子目標由階段調度器定義。SCM在導航和搜索階段更新，而HSG在搜索時構建，但用于最終定位

數據集準備

我們的導航數據集來自CityNav數據集[11]，其中提供了目標、地標、區域、空間關系等的詳細指令。平均飛行距離為545米，超過了OpenUAV（255米）、AVDN（144米）和OpenFly（不到150米）。除了三個主要部分——驗證已見部分、驗證未見部分和測試未見部分——我們根據目標距離將兩個未見部分進一步劃分為三個難度級別。圖像是

討論與結論

這項工作介紹了GeoNav，這是一個代理型MLLM框架，通過模仿人類從粗略到精細的推理來處理復雜的語言引導的空中導航。其核心是一個新穎的雙記憶系統，旨在增強MLLM的能力：自上而下的概念地圖提供全局性的、基于地標的線索，而層次化場景圖（HSG）管理動態的、局部的物體關系，以實現精確定位。

在具有挑戰性的長距離CityNav基準測試中，GeoNav樹立了新的最佳技術水平

利益沖突聲明

作者聲明他們沒有已知的競爭性財務利益或個人關系可能影響本文報告的工作。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號

摘要

引言

相關工作