利用魯棒可能性模糊C均值算法識別污水處理過程中不平衡的工作條件
《Process Safety and Environmental Protection》:Recognition of Imbalanced Working Conditions in Wastewater Treatment Process with a Robust Possibilistic Fuzzy C-Means Algorithm
【字體:
大
中
小
】
時間:2026年02月28日
來源:Process Safety and Environmental Protection 7.8
編輯推薦:
魯棒可能模糊C-均值算法通過指數函數降噪和加權策略處理類別不平衡,結合內外循環優化自動確定聚類數,實驗驗證其在污水處理工況識別中準確性和魯棒性優于對比算法。
李文靜|于子尚|喬俊飛
北京工業大學信息科學與技術學院,中國北京100124
摘要
準確識別污水處理廠(WWTP)的運行條件對于確保系統安全、優化運行效率以及降低能耗至關重要。然而,由于廢水成分的復雜性和環境變化的不確定性,這一任務極具挑戰性。為了解決這個問題,提出了一種魯棒的模糊C均值(RPFCM)算法,以提高對WWTP不平衡運行條件識別的準確性。首先,為RPFCM構建了一個新的目標函數,其中包含一個指數函數以減少噪聲的影響,并采用了一種加權策略來解決簇不平衡問題。其次,提出了一種基于內外循環的優化方法,迭代更新目標函數以在不同簇數下生成聚類結果。最后,引入了一種基于圖表的搜索策略來確定最優簇數,從而獲得更好的聚類結果,提高了RPFCM算法在WWTP中的準確性。實驗結果表明,RPFCM在所有比較算法中表現最佳。此外,RPFCM在處理少數簇和多數簇時都表現出優異的性能,這表明其加權策略在處理不平衡運行條件時具有優越性。進一步證明,通過引入指數函數,其抗噪聲能力得到了增強。
引言
由于廢水成分的復雜性以及受環境因素的影響,污水處理過程(WWTP)通常在多種運行條件下進行(Xu等人,2024年;Cheng等人,2021年)。識別運行條件使操作人員能夠優化處理過程,從而確保系統安全并降低能耗(An等人,2024年)。此外,這有助于防止異常情況的發生,保障WWTP的安全運行(Yu等人,2023年)。因此,準確識別運行條件對于WWTP的運行至關重要。
然而,WWTP中運行條件的識別面臨許多困難。首先,由于運行條件的復雜性和成本限制,難以獲得大量標記的運行條件樣本,這限制了監督方法在運行條件識別中的應用(Alvi等人,2023年;Zhu等人,2022年)。其次,運行條件的出現頻率不同,這種不平衡可能導致識別準確性下降,尤其是對于出現頻率較低的運行條件(Chen等人,2024年)。因此,增加了異常情況的風險,從而影響整體運行效率和安全性(Thabtah等人,2020年)。此外,獲取的數據受到噪聲污染,影響了識別的準確性和可靠性。這些問題給WWTP中的運行條件識別帶來了巨大挑戰。
作為一種無監督學習方法,聚類分析將相似的樣本歸為一類,將不同的樣本分配到不同的簇中,由于不需要預標記數據,因此被廣泛用于運行條件識別(Jain等人,1999年)。基于距離的聚類方法使用距離作為衡量樣本相似性的指標,提供了一種快速、直觀且計算效率高的數據處理和分析方式,因此受到許多研究人員的青睞(Wang等人,2023年;Szel?g等人,2023年)。作為經典的基于距離的聚類方法,K-means算法已被廣泛用于運行條件識別,并應用于許多工業過程。例如,Yiakopoulos等人(2011年)將K-means聚類算法應用于滾動元件軸承的故障診斷,證明了其在性能和計算復雜性之間的良好平衡。此外,許多研究人員在初始聚類中心的確定和簇數的選擇(Zhao等人,2017年;Khan等人,2019年)以及不平衡數據的聚類增強(Wang等人,2021年;Zhang等人,2023年)方面對K-means算法進行了改進,這些改進在實際應用中顯示出顯著的效果。然而,K-means算法嚴格將每個樣本分配到單一的運行條件下,這不適合像WWTP這樣的工業過程,因為WWTP中的生化反應非常復雜,運行條件的邊界不明確。因此,在這種情況下,更傾向于使用軟聚類方法,因為它具有靈活性。
模糊C均值(FCM)算法作為一種流行的軟聚類算法,允許數據點屬于多個簇,并具有不同的隸屬度。這種軟分區的特性使FCM算法能夠更有效地處理數據的模糊性和不確定性,因此常用于工業過程中的運行條件識別(Hu等人,2020年)。然而,FCM算法對噪聲和異常值非常敏感(Tushir和Srivastava,2010年;Sharma等人,2013年),為此提出了幾種改進方法。例如,Krishnapuram和Keller(1996年)提出了可能性C均值(PCM)算法,并證明其對噪聲和異常值的魯棒性很高。然后,通過將PCM與FCM結合,提出了可能性模糊C均值(PFCM)算法,以提高其魯棒性(Pal等人,2005年),并已成功應用于高壓電容式電壓變壓器的內部絕緣狀態識別(Meng等人,2020年)。然而,當存在少量異常值時,PFCM算法的性能并不令人滿意。為了進一步提高對噪聲和異常值數據的處理能力,Askari等人(2017a;Askari等人,2017b)提出了廣義可能性模糊C均值(GPFCM)算法和基于廣義熵的可能性模糊C均值(GEPFCM)算法,通過使用改進的距離函數代替傳統距離來減少噪聲對簇中心的影響。將這兩種算法應用于實際的氣體消耗數據集,結果顯示它們在處理噪聲和異常值方面優于PFCM,但同時也表現出較高的計算復雜性。
此外,由于FCM基方法對簇大小敏感(Fu等人,2021年;Zhou等人,2016年),許多研究人員致力于解決簇不平衡問題。例如,Lin等人(2014年)提出了一種不受簇大小影響的基于完整性的FCM(siibFCM)方法,通過考慮簇的緊湊性和純度來解決簇不平衡問題,并進一步添加了基于純度的模糊因子來克服噪聲問題(Lin等人,2015年),實驗結果表明其在圖像分割應用中具有高精度。Ma等人(2012年)引入了類間加權和隨機過采樣到基于模糊C均值聚類的FSVM(FCM-FSVM)和基于核模糊C均值聚類的FSVM(KFCM-FSVM),使其能夠處理電力變壓器故障診斷中的簇不平衡和噪聲問題。Askari(2021年)通過一種不受簇大小影響的機制改進了FCM算法,防止大簇吸引小簇的中心。Yu等人(2024年)提出了一種基于特征加權的抑制可能性模糊C均值(FW-S-PFCM)算法,通過將特征加權方法和抑制競爭學習策略集成到PFCM中,有效解決了特征不平衡問題并解決了噪聲多維數據集中的中心重疊問題。盡管上述改進算法在處理噪聲和簇不平衡問題方面表現良好,但它們對需要預先確定的簇數量敏感。因此,更靈活的方法值得進一步研究。
在本研究中,提出了一種魯棒的可能性FCM算法(RPFCM),旨在:(1)提高WWTP中不平衡運行條件的識別準確性;(2)增強對噪聲的魯棒性,并在噪聲環境中保持準確的識別;(3)通過自動確定簇的數量來適應像WWTP這樣的復雜工業過程。
部分摘錄
材料與方法
本文提出的用于識別WWTP不平衡運行條件的RPFCM算法的完整框架如圖1所示。為了驗證該方法的有效性,使用從基準模擬模型No. 1(BSM1)中獲得的廢水處理數據進行了實驗。
在這方面,首先介紹了BSM1廢水處理模擬模型(第2.1節),然后是在多種運行條件下進行的數據收集
結果與討論
在本節中,使用從BSM1平臺獲得的數據集驗證了RPFCM算法的有效性,并進一步將其與FCM、PFCM和MACW算法進行了比較,從不平衡數據集的性能和噪聲環境下的魯棒性角度進行了評估。如第2.1節所述,輸入變量是BOD和COD,它們與不同的運行條件密切相關,并來源于BSM1模型的13個基本狀態變量,如表I所列。
結論
本研究提出了一種魯棒的可能性FCM算法,以提高WWTP中不平衡運行條件識別的準確性。該方法提供了一種新的目標函數,其中包含加權策略和指數函數,共同提高了算法處理復雜和不平衡場景的能力以及對噪聲的魯棒性。為了評估RPFCM算法的有效性,使用了從BSM1收集的四個模擬數據集
未引用的參考文獻
(Batstone等人,2023年;Chang和Meng,2024年;Wang,2023年;Yu等人,2023年;Zhou和Yang,2016年;Zhang等人,2025年)
CRediT作者貢獻聲明
李文靜:撰寫——原始草稿,監督,方法論,資金獲取。于子尚:撰寫——原始草稿,可視化,驗證,方法論。喬俊飛:撰寫——審稿與編輯,項目管理,資金獲取。
利益沖突聲明
作者聲明他們沒有已知的可能會影響本文所述工作的財務利益或個人關系。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號