第一福利成人AV导航,亚洲制服丝袜无码,制服丝袜在线云霸

首頁今日動態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價專欄技術(shù)快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

基于時空對比學(xué)習(xí)框架學(xué)習(xí)街景表示方法

《Computers, Environment and Urban Systems》：Learning street view representations based on a spatiotemporal contrastive learning framework

【字體：大中小】 時間：2026年03月02日 來源：Computers, Environment and Urban Systems 8.3

編輯推薦：

　　街景影像的層次語義特征提取受限于傳統(tǒng)方法對動態(tài)靜態(tài)對象區(qū)分不足及場景氛圍抽象能力弱，本研究提出時空對比學(xué)習(xí)框架，通過時間/空間/實例對比策略分別捕捉靜態(tài)結(jié)構(gòu)、區(qū)域氛圍和全局場景特征，顯著提升城市任務(wù)（位置識別、社會經(jīng)濟預(yù)測）的模型表現(xiàn)，并構(gòu)建基準(zhǔn)數(shù)據(jù)集。

李勇|黃穎晶

北京大學(xué)地球與空間科學(xué)學(xué)院遙感與地理信息系統(tǒng)研究所，北京，100871，中國

摘要

街景圖像已成為城市研究的重要數(shù)據(jù)來源，支持各種城市任務(wù)，如環(huán)境感知和社會經(jīng)濟預(yù)測。傳統(tǒng)方法主要依賴于手工制作的特征或監(jiān)督式機器學(xué)習(xí)從圖像中提取信息。然而，這些方法往往無法捕捉城市環(huán)境的層次語義：在視覺層面上，它們無法選擇性地表示動態(tài)與靜態(tài)對象；而在更高層次的上下文中，它們無法抽象出場景的集體氛圍，這限制了它們在地點識別和社會經(jīng)濟推斷等任務(wù)中的有效性。本質(zhì)上，這種限制是由于不同的城市任務(wù)依賴于空間和時間上的根本不同不變性。為了解決這一挑戰(zhàn)，我們提出了時空對比學(xué)習(xí)框架，這是一種新穎的自我監(jiān)督框架，系統(tǒng)地組織了城市場景的表示學(xué)習(xí)。該框架通過選擇性地對比在空間和時間維度上保持不變的內(nèi)容與變化的內(nèi)容，定義了不同的預(yù)訓(xùn)練策略，使模型能夠隔離特定的城市特征，如動態(tài)元素、靜態(tài)結(jié)構(gòu)或社區(qū)氛圍。驗證實驗確認，每種對比策略產(chǎn)生的表示在相應(yīng)任務(wù)上的表現(xiàn)顯著優(yōu)于已建立的基線。這項研究不僅提供了一個新的表示框架，還提供了一個嚴(yán)格的基準(zhǔn)，增強了視覺數(shù)據(jù)在城市科學(xué)中的適用性。代碼可在https://github.com/yonglleee/UrbanSTCL獲取。

引言

隨著街景圖像的日益普及（Naik等人，2017年；Zhang、Salazar-Miranda等人，2024年），城市正在利用大規(guī)模視覺數(shù)據(jù)進行多種任務(wù)，如地點識別（Lowry等人，2015年）、城市感知分析（Dubey等人，2016年；Zhang等人，2018年）、道路狀況評估（Chacra & Zelek，2018年）和社會經(jīng)濟預(yù)測（Gebru等人，2017年；Wang、Li和Rajagopal，2020年）。與傳統(tǒng)的以對象為中心的視覺任務(wù)不同，這些城市應(yīng)用關(guān)注城市環(huán)境的不同方面。例如，地點識別依賴于包括建筑物和道路在內(nèi)的不變特征；而測量人們對一個地方的感知則依賴于建筑物狀況、街道照明、人類活動和植被等元素來評估場景中的整體感知；社會經(jīng)濟預(yù)測則關(guān)注空間不變的社區(qū)氛圍，捕捉附近區(qū)域的物理、社會、文化和功能特征。學(xué)習(xí)能夠適應(yīng)這些多樣化需求的有效街景表示，特別是在捕捉城市環(huán)境的空間和時間動態(tài)方面，仍然是一個關(guān)鍵挑戰(zhàn)。

為了解決這種適應(yīng)性表示的學(xué)習(xí)挑戰(zhàn)，研究人員越來越多地轉(zhuǎn)向自我監(jiān)督學(xué)習(xí)（SSL）。自我監(jiān)督學(xué)習(xí)利用對比學(xué)習(xí)（Chen等人，2020年；Chen等人，2021年；He等人，2020年）和掩碼建模（He等人，2022年；Xie等人，2022年）等技術(shù)，在圖像分類（Radford等人，2021年）、對象檢測（He等人，2022年）和語義分割（Wang、Zhang等人，2020年）等經(jīng)典視覺任務(wù)中表現(xiàn)出色，通常超越了傳統(tǒng)的監(jiān)督學(xué)習(xí)方法。然而，當(dāng)前的自我監(jiān)督方法傾向于編碼盡可能多的語義和結(jié)構(gòu)信息（Huang等人，2024年；Park等人，2023年），這并不完全符合城市任務(wù)的多樣化需求。例如，它們可能難以區(qū)分地點識別所需的靜態(tài)特征（Lowry等人，2015年）和對人類感知地點至關(guān)重要的動態(tài)元素（Dubey等人，2016年；Zhang等人，2018年），或者難以捕捉社會經(jīng)濟預(yù)測所需的空間一致性（Wang、Li和Rajagopal，2020年）。

在圖像表示學(xué)習(xí)中，選擇性地編碼城市環(huán)境中的動態(tài)和靜態(tài)信息及其創(chuàng)造的氛圍非常重要，但本質(zhì)上具有挑戰(zhàn)性（Cordts等人，2016年）。要實現(xiàn)這種信息的精確編碼，通常需要分別標(biāo)記動態(tài)和靜態(tài)元素，并使用特定的訓(xùn)練策略（Cheng等人，2017年；Wang等人，2019年）（例如，在編碼靜態(tài)元素時屏蔽動態(tài)元素）。然而，標(biāo)記和訓(xùn)練過程都充滿了困難。諸如照明條件、植被外觀和地面雜物等因素難以客觀和一致地標(biāo)記。這使得使用傳統(tǒng)數(shù)據(jù)集（例如ImageNet（Deng等人，2009年）和Places（Zhou等人，2017年）以及經(jīng)典方法（監(jiān)督式或自我監(jiān)督式）幾乎不可能準(zhǔn)確表示這些復(fù)雜的環(huán)境因素。

為了解決這些挑戰(zhàn)，我們提出了一個對比街景表示學(xué)習(xí)框架，該框架明確利用了時間戳和地理位置——這些元數(shù)據(jù)在標(biāo)準(zhǔn)圖像數(shù)據(jù)集中大多缺失。核心思想是形成互補的正樣本對，以針對不同的不變性：（i）時間對比——從同一位置在不同時間捕獲的正樣本對——促使編碼器強調(diào)建筑環(huán)境的時間不變、靜態(tài)屬性（例如建筑物、基礎(chǔ)設(shè)施），并抑制對動態(tài)元素（行人、車輛）的敏感性，從而有利于地點識別等任務(wù)。（ii）空間對比——從同一時間但在不同位置拍攝的圖像形成的正樣本對——鼓勵在城市社區(qū)內(nèi)穩(wěn)定的表示，捕捉其社會經(jīng)濟“氛圍”，同時減少對對象級變化的敏感性，這支持社區(qū)規(guī)模的社會經(jīng)濟估計。（iii）實例對比本質(zhì)上歸結(jié)為經(jīng)典的實例級對比學(xué)習(xí)，產(chǎn)生保留完整場景（包括靜態(tài)和動態(tài)內(nèi)容以及整體氛圍）的表示，適用于以人類感知為導(dǎo)向的任務(wù)。（iv）時空對比——跨越時間和空間的正樣本對促進對空間和時間的不變性，捕捉更持久、更高層次的特征——如歷史和文化特征——這些特征支持相關(guān)的城市分析。

我們在多個城市任務(wù)中驗證了我們主要假設(shè)（實例對比、空間對比和時間對比）的有效性。雖然我們的框架還概念化了用于學(xué)習(xí)深度歷史和文化模式的時空對比，但由于收集其相應(yīng)下游任務(wù)所需真實數(shù)據(jù)的難度，我們將其實驗驗證留待未來的工作。實驗結(jié)果表明，不同的對比學(xué)習(xí)目標(biāo)可以學(xué)習(xí)更適合各自城市任務(wù)的不同類型特征。我們還深入分析了不同對比方法性能背后的原因，進一步強調(diào)了有針對性的學(xué)習(xí)策略的重要性。這項研究系統(tǒng)地探索了基于街景圖像的城市研究中的表示學(xué)習(xí)策略，提供了一個有價值的基準(zhǔn)，并增強了視覺數(shù)據(jù)在城市科學(xué)中的適用性。

部分摘錄

用于城市任務(wù)的街景表示學(xué)習(xí)

街景圖像已廣泛用于各種城市任務(wù)（Gebru等人，2017年；Naik等人，2017年），如道路缺陷檢測（Chacra & Zelek，2018年）、交通預(yù)測（Zhang、Li和Zhang，2024年）、城市功能識別（Huang等人，2023年）和社會經(jīng)濟預(yù)測（Fan等人，2023年）。然而，現(xiàn)有的街景表示研究通常依賴于在Places365（Zhou等人，2017年）等數(shù)據(jù)集上訓(xùn)練的監(jiān)督模型，或直接使用像素比例

利用時空對比學(xué)習(xí)街景表示

我們學(xué)習(xí)城市表示的方法受到時空對比學(xué)習(xí)框架（圖1）的指導(dǎo)，這是一個旨在利用街景圖像獨特屬性的統(tǒng)一框架。該框架沿著兩個基本軸組織表示學(xué)習(xí)，這兩個軸定義了如何構(gòu)建正樣本對：空間軸，考慮樣本對是否來自同一地點或社區(qū)內(nèi)的不同位置；時間軸，考慮它們是否

將以任務(wù)為中心的表示應(yīng)用于城市應(yīng)用

城市環(huán)境既具有空間復(fù)雜性也具有時間復(fù)雜性——位置隨時間變化，但仍保持固有特征；不同區(qū)域在保持獨特身份的同時具有結(jié)構(gòu)上的相似性。捕捉這些動態(tài)對于理解城市至關(guān)重要，使得視覺地點識別、社會經(jīng)濟預(yù)測和安全感知等任務(wù)成為評估我們對比學(xué)習(xí)框架的自然基準(zhǔn)。

結(jié)果

我們在三個任務(wù)上評估了我們的模型——視覺地點識別、社會經(jīng)濟預(yù)測和安全感知——每個任務(wù)都對應(yīng)不同的對比學(xué)習(xí)策略。視覺地點識別受益于時間對比學(xué)習(xí)，以增強隨時間的穩(wěn)定性。社會經(jīng)濟預(yù)測依賴于空間對比學(xué)習(xí)來捕捉社區(qū)模式。安全感知利用實例對比學(xué)習(xí)來提取全局場景特征。

討論

我們對不同對比模型學(xué)習(xí)的特征進行了可解釋性分析，以更深入地了解模型關(guān)注的信息以及這些信息如何影響城市任務(wù)的表現(xiàn)。

結(jié)論

在這項工作中，我們提出了一個自我監(jiān)督學(xué)習(xí)框架——時空對比框架，旨在從街景圖像中學(xué)習(xí)表示。我們系統(tǒng)地實施并評估了其三個核心策略：時間對比、空間對比和實例對比。我們的實驗結(jié)果表明，這些不同的策略有效地學(xué)習(xí)了針對不同城市任務(wù)的特征，顯著提高了視覺地點識別的性能

CRediT作者貢獻聲明

李勇：寫作——審稿與編輯、撰寫原始草稿、可視化、驗證、軟件、資源、方法論、調(diào)查、形式分析、數(shù)據(jù)整理、概念化。黃穎晶：撰寫原始草稿、可視化、資源、方法論、數(shù)據(jù)整理。張帆：寫作——審稿與編輯、撰寫原始草稿、監(jiān)督、資金獲取、概念化。