基于時空對比學(xué)習(xí)框架學(xué)習(xí)街景表示方法
《Computers, Environment and Urban Systems》:Learning street view representations based on a spatiotemporal contrastive learning framework
【字體:
大
中
小
】
時間:2026年03月02日
來源:Computers, Environment and Urban Systems 8.3
編輯推薦:
街景影像的層次語義特征提取受限于傳統(tǒng)方法對動態(tài)靜態(tài)對象區(qū)分不足及場景氛圍抽象能力弱,本研究提出時空對比學(xué)習(xí)框架,通過時間/空間/實例對比策略分別捕捉靜態(tài)結(jié)構(gòu)、區(qū)域氛圍和全局場景特征,顯著提升城市任務(wù)(位置識別、社會經(jīng)濟預(yù)測)的模型表現(xiàn),并構(gòu)建基準(zhǔn)數(shù)據(jù)集。
李勇|黃穎晶
北京大學(xué)地球與空間科學(xué)學(xué)院遙感與地理信息系統(tǒng)研究所,北京,100871,中國
摘要
街景圖像已成為城市研究的重要數(shù)據(jù)來源,支持各種城市任務(wù),如環(huán)境感知和社會經(jīng)濟預(yù)測。傳統(tǒng)方法主要依賴于手工制作的特征或監(jiān)督式機器學(xué)習(xí)從圖像中提取信息。然而,這些方法往往無法捕捉城市環(huán)境的層次語義:在視覺層面上,它們無法選擇性地表示動態(tài)與靜態(tài)對象;而在更高層次的上下文中,它們無法抽象出場景的集體氛圍,這限制了它們在地點識別和社會經(jīng)濟推斷等任務(wù)中的有效性。本質(zhì)上,這種限制是由于不同的城市任務(wù)依賴于空間和時間上的根本不同不變性。為了解決這一挑戰(zhàn),我們提出了時空對比學(xué)習(xí)框架,這是一種新穎的自我監(jiān)督框架,系統(tǒng)地組織了城市場景的表示學(xué)習(xí)。該框架通過選擇性地對比在空間和時間維度上保持不變的內(nèi)容與變化的內(nèi)容,定義了不同的預(yù)訓(xùn)練策略,使模型能夠隔離特定的城市特征,如動態(tài)元素、靜態(tài)結(jié)構(gòu)或社區(qū)氛圍。驗證實驗確認,每種對比策略產(chǎn)生的表示在相應(yīng)任務(wù)上的表現(xiàn)顯著優(yōu)于已建立的基線。這項研究不僅提供了一個新的表示框架,還提供了一個嚴(yán)格的基準(zhǔn),增強了視覺數(shù)據(jù)在城市科學(xué)中的適用性。代碼可在
https://github.com/yonglleee/UrbanSTCL獲取。
引言
隨著街景圖像的日益普及(Naik等人,2017年;Zhang、Salazar-Miranda等人,2024年),城市正在利用大規(guī)模視覺數(shù)據(jù)進行多種任務(wù),如地點識別(Lowry等人,2015年)、城市感知分析(Dubey等人,2016年;Zhang等人,2018年)、道路狀況評估(Chacra & Zelek,2018年)和社會經(jīng)濟預(yù)測(Gebru等人,2017年;Wang、Li和Rajagopal,2020年)。與傳統(tǒng)的以對象為中心的視覺任務(wù)不同,這些城市應(yīng)用關(guān)注城市環(huán)境的不同方面。例如,地點識別依賴于包括建筑物和道路在內(nèi)的不變特征;而測量人們對一個地方的感知則依賴于建筑物狀況、街道照明、人類活動和植被等元素來評估場景中的整體感知;社會經(jīng)濟預(yù)測則關(guān)注空間不變的社區(qū)氛圍,捕捉附近區(qū)域的物理、社會、文化和功能特征。學(xué)習(xí)能夠適應(yīng)這些多樣化需求的有效街景表示,特別是在捕捉城市環(huán)境的空間和時間動態(tài)方面,仍然是一個關(guān)鍵挑戰(zhàn)。
為了解決這種適應(yīng)性表示的學(xué)習(xí)挑戰(zhàn),研究人員越來越多地轉(zhuǎn)向自我監(jiān)督學(xué)習(xí)(SSL)。自我監(jiān)督學(xué)習(xí)利用對比學(xué)習(xí)(Chen等人,2020年;Chen等人,2021年;He等人,2020年)和掩碼建模(He等人,2022年;Xie等人,2022年)等技術(shù),在圖像分類(Radford等人,2021年)、對象檢測(He等人,2022年)和語義分割(Wang、Zhang等人,2020年)等經(jīng)典視覺任務(wù)中表現(xiàn)出色,通常超越了傳統(tǒng)的監(jiān)督學(xué)習(xí)方法。然而,當(dāng)前的自我監(jiān)督方法傾向于編碼盡可能多的語義和結(jié)構(gòu)信息(Huang等人,2024年;Park等人,2023年),這并不完全符合城市任務(wù)的多樣化需求。例如,它們可能難以區(qū)分地點識別所需的靜態(tài)特征(Lowry等人,2015年)和對人類感知地點至關(guān)重要的動態(tài)元素(Dubey等人,2016年;Zhang等人,2018年),或者難以捕捉社會經(jīng)濟預(yù)測所需的空間一致性(Wang、Li和Rajagopal,2020年)。
在圖像表示學(xué)習(xí)中,選擇性地編碼城市環(huán)境中的動態(tài)和靜態(tài)信息及其創(chuàng)造的氛圍非常重要,但本質(zhì)上具有挑戰(zhàn)性(Cordts等人,2016年)。要實現(xiàn)這種信息的精確編碼,通常需要分別標(biāo)記動態(tài)和靜態(tài)元素,并使用特定的訓(xùn)練策略(Cheng等人,2017年;Wang等人,2019年)(例如,在編碼靜態(tài)元素時屏蔽動態(tài)元素)。然而,標(biāo)記和訓(xùn)練過程都充滿了困難。諸如照明條件、植被外觀和地面雜物等因素難以客觀和一致地標(biāo)記。這使得使用傳統(tǒng)數(shù)據(jù)集(例如ImageNet(Deng等人,2009年)和Places(Zhou等人,2017年)以及經(jīng)典方法(監(jiān)督式或自我監(jiān)督式)幾乎不可能準(zhǔn)確表示這些復(fù)雜的環(huán)境因素。
為了解決這些挑戰(zhàn),我們提出了一個對比街景表示學(xué)習(xí)框架,該框架明確利用了時間戳和地理位置——這些元數(shù)據(jù)在標(biāo)準(zhǔn)圖像數(shù)據(jù)集中大多缺失。核心思想是形成互補的正樣本對,以針對不同的不變性:(i)時間對比——從同一位置在不同時間捕獲的正樣本對——促使編碼器強調(diào)建筑環(huán)境的時間不變、靜態(tài)屬性(例如建筑物、基礎(chǔ)設(shè)施),并抑制對動態(tài)元素(行人、車輛)的敏感性,從而有利于地點識別等任務(wù)。(ii)空間對比——從同一時間但在不同位置拍攝的圖像形成的正樣本對——鼓勵在城市社區(qū)內(nèi)穩(wěn)定的表示,捕捉其社會經(jīng)濟“氛圍”,同時減少對對象級變化的敏感性,這支持社區(qū)規(guī)模的社會經(jīng)濟估計。(iii)實例對比本質(zhì)上歸結(jié)為經(jīng)典的實例級對比學(xué)習(xí),產(chǎn)生保留完整場景(包括靜態(tài)和動態(tài)內(nèi)容以及整體氛圍)的表示,適用于以人類感知為導(dǎo)向的任務(wù)。(iv)時空對比——跨越時間和空間的正樣本對促進對空間和時間的不變性,捕捉更持久、更高層次的特征——如歷史和文化特征——這些特征支持相關(guān)的城市分析。
我們在多個城市任務(wù)中驗證了我們主要假設(shè)(實例對比、空間對比和時間對比)的有效性。雖然我們的框架還概念化了用于學(xué)習(xí)深度歷史和文化模式的時空對比,但由于收集其相應(yīng)下游任務(wù)所需真實數(shù)據(jù)的難度,我們將其實驗驗證留待未來的工作。實驗結(jié)果表明,不同的對比學(xué)習(xí)目標(biāo)可以學(xué)習(xí)更適合各自城市任務(wù)的不同類型特征。我們還深入分析了不同對比方法性能背后的原因,進一步強調(diào)了有針對性的學(xué)習(xí)策略的重要性。這項研究系統(tǒng)地探索了基于街景圖像的城市研究中的表示學(xué)習(xí)策略,提供了一個有價值的基準(zhǔn),并增強了視覺數(shù)據(jù)在城市科學(xué)中的適用性。
部分摘錄
用于城市任務(wù)的街景表示學(xué)習(xí)
街景圖像已廣泛用于各種城市任務(wù)(Gebru等人,2017年;Naik等人,2017年),如道路缺陷檢測(Chacra & Zelek,2018年)、交通預(yù)測(Zhang、Li和Zhang,2024年)、城市功能識別(Huang等人,2023年)和社會經(jīng)濟預(yù)測(Fan等人,2023年)。然而,現(xiàn)有的街景表示研究通常依賴于在Places365(Zhou等人,2017年)等數(shù)據(jù)集上訓(xùn)練的監(jiān)督模型,或直接使用像素比例
利用時空對比學(xué)習(xí)街景表示
我們學(xué)習(xí)城市表示的方法受到時空對比學(xué)習(xí)框架(圖1)的指導(dǎo),這是一個旨在利用街景圖像獨特屬性的統(tǒng)一框架。該框架沿著兩個基本軸組織表示學(xué)習(xí),這兩個軸定義了如何構(gòu)建正樣本對:空間軸,考慮樣本對是否來自同一地點或社區(qū)內(nèi)的不同位置;時間軸,考慮它們是否
將以任務(wù)為中心的表示應(yīng)用于城市應(yīng)用
城市環(huán)境既具有空間復(fù)雜性也具有時間復(fù)雜性——位置隨時間變化,但仍保持固有特征;不同區(qū)域在保持獨特身份的同時具有結(jié)構(gòu)上的相似性。捕捉這些動態(tài)對于理解城市至關(guān)重要,使得視覺地點識別、社會經(jīng)濟預(yù)測和安全感知等任務(wù)成為評估我們對比學(xué)習(xí)框架的自然基準(zhǔn)。
結(jié)果
我們在三個任務(wù)上評估了我們的模型——視覺地點識別、社會經(jīng)濟預(yù)測和安全感知——每個任務(wù)都對應(yīng)不同的對比學(xué)習(xí)策略。視覺地點識別受益于時間對比學(xué)習(xí),以增強隨時間的穩(wěn)定性。社會經(jīng)濟預(yù)測依賴于空間對比學(xué)習(xí)來捕捉社區(qū)模式。安全感知利用實例對比學(xué)習(xí)來提取全局場景特征。
討論
我們對不同對比模型學(xué)習(xí)的特征進行了可解釋性分析,以更深入地了解模型關(guān)注的信息以及這些信息如何影響城市任務(wù)的表現(xiàn)。
結(jié)論
在這項工作中,我們提出了一個自我監(jiān)督學(xué)習(xí)框架——時空對比框架,旨在從街景圖像中學(xué)習(xí)表示。我們系統(tǒng)地實施并評估了其三個核心策略:時間對比、空間對比和實例對比。我們的實驗結(jié)果表明,這些不同的策略有效地學(xué)習(xí)了針對不同城市任務(wù)的特征,顯著提高了視覺地點識別的性能
CRediT作者貢獻聲明
李勇:寫作——審稿與編輯、撰寫原始草稿、可視化、驗證、軟件、資源、方法論、調(diào)查、形式分析、數(shù)據(jù)整理、概念化。黃穎晶:撰寫原始草稿、可視化、資源、方法論、數(shù)據(jù)整理。張帆:寫作——審稿與編輯、撰寫原始草稿、監(jiān)督、資金獲取、概念化。
利益沖突聲明
作者聲明他們沒有已知的可能會影響本文所述工作的財務(wù)利益或個人關(guān)系。
致謝
我們還要感謝國家自然科學(xué)基金(項目編號42371468)的財政支持。這項工作得到了北京大學(xué)高性能計算平臺的支持。
生物通微信公眾號
生物通新浪微博
- 搜索
- 國際
- 國內(nèi)
- 人物
- 產(chǎn)業(yè)
- 熱點
- 科普
今日動態(tài) |
人才市場 |
新技術(shù)專欄 |
中國科學(xué)人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術(shù)快訊 |
免費試用
版權(quán)所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯(lián)系信箱:
粵ICP備09063491號