聲景是指個體或群體在特定環境中感知和解釋的聲學環境。它反映了城市區域的自然特征和社會文化維度。城市聲景顯著影響居民的生活質量以及他們的身體健康和心理健康(Aletta, Zhou, Mitchell等人,2025)。噪聲污染是影響城市可持續性的主要環境問題之一(Jarosińska等人,2018)。長期暴露于城市噪聲與不良健康結果相關,包括聽力損失、高血壓、心血管疾病、焦慮和失眠(Fiedler & Zannin, 2015; Tao, Chai, & Kou, 2020)。相比之下,積極或舒緩的聲音,如鳥鳴或流水聲,可以減輕壓力并促進心理健康(Payne, 2013)。因此,繪制細粒度的城市聲景并分析其影響因素對于創造更健康、更宜居的城市環境至關重要。
聲景研究涵蓋了物理環境和人類感知兩個方面。盡管大多數研究強調愉悅度等主觀屬性,但測量物理聲學環境仍然是理解這些感知結果的前提。本研究關注聲壓級(SPL)和主要聲源作為客觀指標,以表征城市聲學環境,將其與個體的主觀情感或感知反應區分開來。傳統的聲景映射方法主要依賴于高成本的現場方法,如現場聲音測量、聲音漫步和定性調查,然后通過空間插值來估計聲景模式(Liu, Kang, Luo, Behm, & Coppack, 2013)。常見的插值方法包括逆距離加權(IDW)和克里金法(Kriging)。然而,這些方法耗時且勞動密集,不適合細粒度的城市聲景應用。近年來,機器學習和深度學習作為聲景預測的有希望的替代方案出現,降低了數據收集和建模成本。例如,Yue, Meng, Yang等人(2023)開發了一個可視化的聲景預測模型,使用高斯混合模型整合了地理和視覺設計元素來預測聲壓級、聲源類型和聲景評估,并以直觀的視覺形式呈現結果,以支持城市公園設計決策。然而,這些研究主要關注特定區域,例如公園或街道,難以實現細粒度和大規模的城市聲景預測。
城市大數據的快速增長為實現細粒度和大規模的城市聲景分析提供了有力途徑。多樣且易于獲取的數據集——包括遙感圖像、街景圖像(SVI)、道路網絡和建筑輪廓——捕捉了直接塑造聲學模式的環境背景。實證研究證實了城市形態和植被在減輕噪聲中的關鍵作用(Margaritis & Kang, 2017),以及道路密度和交通走廊對噪聲傳播的影響(Lu等人,2019)。此外,城市聲音的空間分布與異構土地覆蓋和興趣點(POI)密切相關(Guo等人,2022)。通過整合這些異構數據源,最近的研究表明,城市大數據結合機器學習能夠實現可擴展且成本效益高的聲景建模。例如,Zhao, Liang, Tu等人(2023)使用眾包的聲景評分和街景圖像來推斷整個城市的聲學環境,展示了大數據超越局部研究、實現高分辨率和大范圍預測的潛力。
盡管取得了這些進展,仍存在三個關鍵挑戰。首先,大多數現有模型嚴重依賴大量標記樣本或頻繁的現場測量。在數據分布不均且獲取成本高昂的城市環境中,這種依賴往往導致過擬合和數據稀缺區域的預測偏差,削弱了模型的泛化能力。盡管遷移學習和主動學習在緩解這些問題方面顯示出潛力,但其在聲景研究中的應用仍然有限(Jin, Chen, & Yang, 2022; Owusu等人,2024)。其次,雖然聲景受道路密度、建筑形態、交通流量和綠地等多種因素的影響,但許多研究仍然孤立地分析這些因素,導致見解碎片化,模型無法捕捉跨尺度相互作用。需要一個更全面的框架來整合多源數據,以更豐富地表示城市聲學環境。第三,盡管非線性模型(如深度神經網絡和隨機森林)實現了高預測精度,但它們的“黑箱”性質限制了可解釋性和透明度,這對于基于證據的規劃和環境治理至關重要。
為了解決這些挑戰,本研究提出了一個可解釋的半監督學習框架,用于預測和分析城市聲景。該框架包括三個主要組成部分。首先,通過整合城市聲音數據(如SPL、聲源類型)與多樣的空間數據源(如POI、道路網絡、建筑物、街景圖像和遙感數據),構建了一個多維度指標系統。這些數據被轉換為功能、形態、自然和視覺上下文特征,以全面表示城市聲學環境。其次,采用半監督學習方法來克服標記數據的稀缺問題。通過使用異構模型的協同訓練機制,模型迭代生成偽標簽以擴展訓練集,從而在有限監督下實現穩健的預測。第三,通過應用SHAP(Shapley加性解釋)來提高模型的可解釋性,該技術量化了每個特征的邊際效應,揭示了聲景形成中的復雜非線性關系和空間異質性。這些組件共同構成了一個集成且可擴展的流程,用于可解釋和數據高效的城市聲景分析。
本文的其余部分組織如下:第2節回顧了有關城市聲景和可解釋機器學習的相關研究。第3節描述了研究區域和數據集。第4節詳細介紹了聲景映射方法。第5節討論并分析了結果。最后,第6節總結了主要發現并展望了未來的工作。