午夜剧场黄色,看亚洲一级黄色片啪啪啪,中文字幕亚洲精品

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

了解數據預處理流程如何影響基于豐富特征的熱舒適度預測的機器學習模型

《Journal of Building Engineering》：Understanding How Data Preprocessing Pipelines Affect Machine Learning Models on Feature-rich Thermal Comfort Prediction

【字體：大中小】 時間：2026年03月03日 來源：Journal of Building Engineering 7.4

編輯推薦：

　　本研究通過因子實驗評估672種數據預處理配置對隨機森林、XGBoost、支持向量機和人工神經網絡在夏季廚房熱舒適預測中的效果，發現預處理有效性高度模型特定，執行順序起關鍵作用，如SVM需邊界聚焦重采樣配合特征篩選和縮放，而XGBoost受益于三者協同。結論強調需定制化預處理方案，自動化搜索與明確 heuristic 對設計空間探索至關重要。

劉路萌|黃丹|辛靜輝|戴龍康|潘玉婷|曾文茂|齊文端|劉煥|劉夢

重慶大學土木工程學院，中國重慶400045

摘要

機器學習（ML）算法已成為預測熱舒適度的強大工具，但其性能取決于數據預處理流程（DPP）的設計，而這往往被忽視。數據預處理流程包括類別平衡、數據縮放和特征降維。雖然已知單獨的預處理方法是有益的，但關于哪些方法以及以何種執行順序能夠最好地服務于不同的ML算法，仍存在關鍵的知識空白。為了解決這一空白，我們使用實驗收集的夏季廚房數據集，對672種DPP配置進行了因子評估，這些配置應用于四種代表性模型：隨機森林（RF）、極端梯度提升（XGBoost）、支持向量機（SVM）和人工神經網絡（ANN）。結果表明，DPP的有效性因模型而異，只有在特定的方法組合和順序下才能獲得顯著的性能提升。SVM僅在邊界聚焦的重采樣之后進行適當的特征篩選和特征縮放時，準確率提高了超過0.40%；而ANN唯一的可靠改進（約0.15%）來自Z分數縮放。XGBoost通過三方面的協同作用使準確率提高了0.13%；而RF除非引入有害步驟，否則基本保持穩定。執行順序與方法選擇同樣重要，尤其是對于SVM和XGBoost。某些預處理方法單獨使用可能會破壞原本強大的流程。這些發現僅適用于當前的數據集，因此有效的熱舒適度預測需要經過嚴格驗證、針對模型定制的DPP；自動化搜索和明確的啟發式方法對于探索龐大的方法-順序設計空間至關重要。

引言

機器學習（ML）技術特別擅長建模非線性、高維關系，并已成為預測熱舒適度的主流方法。諸如隨機森林（RF）、支持向量機（SVM）和極端梯度提升（XGBoost）等流行模型已在各種建筑和人體暴露場景中得到應用，其性能始終優于傳統的經驗模型。

ML模型本質上是數據驅動的，因此其預測準確性高度依賴于訓練數據的質量。因此，設計適當的數據預處理流程（DPP）是不可或缺的。典型的DPP包括三個組成部分：（i）數據縮放、（ii）類別平衡和（iii）特征降維（或選擇）。縮放可以消除變量之間的尺度相關性，從而加速收斂并提高數值穩定性。它可以通過樣本級縮放實現，對單個觀測值（行向量）進行標準化；或者通過特征級縮放實現，對特征（列向量）進行標準化。類別平衡通過過采樣少數類或欠采樣多數類來緩解類別分布不平衡的問題。最后，特征降維可以識別出與目標變量有強關聯的最有信息量的特征子集，同時最小化特征之間的冗余。

最近的研究越來越多地將多步驟DPP納入熱舒適度預測中，旨在充分發揮ML模型的潛力。例如，Jiang等人報告稱，去除高度共線特征使XGBoost的準確率提高了13%。Uddin等人比較了SMOTE-Tomek和SMOTEENN，發現后者通過結合去噪和過采樣顯著降低了誤分類率。Haghirad和Bai等人將特征降維、類別平衡和數據縮放應用于ASHRAE Global Ⅱ數據庫，報告了多個ML模型的準確率提升。同樣，Rahmanparast等人最近對ASHRAE數據庫的研究也表明，基于可解釋性的特征降維可以將冗余變量縮減為少量實用預測因子，同時保持具有競爭力的PMV估計性能。然而，這些研究既沒有區分每個數據預處理步驟的貢獻，也沒有檢驗重新排序它們的效果。其他幾項研究也實施了DPP，但同樣未能解釋所選方法的影響。總體而言，現有證據證實了單獨預處理方法的價值，但缺乏一個全面的比較，以明確哪種預處理方法、以何種順序以及針對哪種模型可以獲得最佳預測結果。這一知識空白限制了ML模型在現實世界應用中的部署。

夏季廚房是一個獨特的微環境，其特點是溫度和濕度較高，同時伴隨著中等強度的代謝負荷。除了對空調（AC）和通風的傳統改進外，最近的研究還探討了在廚房中使用可穿戴式局部冷卻設備，證明這些設備可以提高熱舒適度，同時擴大可接受的空調設定范圍并實現節能潛力。然而，能夠準確捕捉這些熱復雜環境中熱感覺的預測模型仍然很少。

為了填補這一空白，本研究利用了之前在夏季住宅廚房烹飪研究中獲得的數據集，該數據集包含了詳細的環境測量結果以及參與者佩戴可穿戴冷卻設備時的生理反應。本研究比較了四種代表性的機器學習算法（RF、SVM、XGBoost和人工神經網絡（ANN）在熱舒適度預測方面的表現。具體而言，本研究關注（i）數據預處理技術的個體和集體效應，即特征降維、數據縮放和類別平衡；以及（ii）這些預處理步驟的不同順序如何影響模型性能。

實驗部分

本研究基于在中國重慶一個典型住宅廚房進行的夏季熱舒適度調查所收集的實驗數據。為了清晰起見，我們在這里總結了關鍵實驗信息，詳細內容在我們的先前工作[35]和補充信息中提供。

測試廚房的尺寸為1.80米×1.65米×2.33米。共有12名健康成年人參與了實驗，樣本量超過了G*Power計算的最小樣本量（α = 0.05時的9人）。

DPP如何影響數據特征

圖2a比較了三種特征降維方法（CA、RFE和LASSO）在RF模型中的29個候選預測因子上的應用效果。CA保留了23個預測因子，RFE保留了17個，LASSO保留了21個。由于每種方法都在自己的尺度上分配權重，我們根據每種方法的最大權重對權重進行了歸一化。圖2a右側的條形長度與這些歸一化權重的總和成正比。需要指出的是，權重值本身不會進入后續模型。

DPP的作用因模型而異

結果表明，數據預處理的影響因模型而異，因為每個DPP步驟都會以不同的方式改變數據，從而改變學習任務，每種分類器的反應也取決于其學習方式。在本研究中，三種類型的改變最為重要：（i）數據縮放，它改變了特征空間的幾何結構；（ii）類別平衡，它改變了類別分布和決策邊界附近的樣本密度；（iii）特征降維，它可以……

結論

本研究對三種預處理方案（類別平衡、數據縮放和特征降維）及其執行順序如何影響四種廣泛使用的機器學習算法（RF、XGBoost、SVM和ANN）在一個實驗收集的熱舒適度數據集上的預測性能進行了全面的因子評估。主要發現如下：

(1)

預處理的效果因模型而異，沒有“通用”的解決方案。在當前的數據集中，基于邊際的……

CRediT作者貢獻聲明

劉路萌：撰寫——初稿，監督，資金獲取，概念構思。黃丹：可視化，調查，正式分析。辛靜輝：軟件，方法論。劉煥：撰寫——審稿與編輯，資金獲取。劉夢：撰寫——審稿與編輯，監督，資金獲取。戴龍康：調查。潘玉婷：調查。曾文茂：調查。齊文端：資源

利益沖突聲明

? 作者聲明他們沒有已知的財務利益或個人關系可能影響本文報告的工作。

致謝

本研究得到了中國國家自然科學基金（編號：52308086）、中國國家重點研發計劃（編號：2024YFD1600403）、中央高校基本科研業務費（編號：2024IAIS-QN008；2024CDJYXTD-003）以及中國“111計劃”（編號：B13041）的支持。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號