《Neurocomputing》:Adaptive locally aligned ant technique and manifold blurring mean shift for manifold detection and denoising
編輯推薦:
本文提出動(dòng)態(tài)局部半徑和動(dòng)態(tài)信息素沉積的改進(jìn)方法,用于檢測(cè)和處理暗物質(zhì)N體模擬中的噪聲背景下的星系結(jié)構(gòu)。實(shí)驗(yàn)表明,新方法減少了噪聲干擾,提高了絲狀結(jié)構(gòu)檢測(cè)的準(zhǔn)確性和效率,并在合成數(shù)據(jù)集和真實(shí)天文數(shù)據(jù)上驗(yàn)證了其有效性。
Felipe Contreras | Reynier Peletier | Kerstin Bunte
格羅寧根大學(xué)天文研究所所長(zhǎng),荷蘭格羅寧根,郵政信箱800,9700AV
摘要 從數(shù)據(jù)中檢測(cè)和提取噪聲流形具有多種應(yīng)用,范圍從降維、計(jì)算機(jī)圖形學(xué)、信號(hào)處理和機(jī)器人技術(shù)到天文結(jié)構(gòu)的建模。在天文學(xué)中,由于背景污染,檢測(cè)微弱的流和絲狀結(jié)構(gòu)具有挑戰(zhàn)性,因?yàn)檫@些結(jié)構(gòu)會(huì)被噪聲淹沒(méi)和隱藏。受生物學(xué)啟發(fā)的“局部對(duì)齊螞蟻技術(shù)”(LAAT)以及隨后的“流形模糊均值漂移”(MBMS)已被證明是一種高效且靈活的算法,可用于在噪聲背景下檢測(cè)和去噪各種結(jié)構(gòu)。我們的貢獻(xiàn)通過(guò)引入動(dòng)態(tài)局部半徑來(lái)擴(kuò)展這兩種方法,從而實(shí)現(xiàn)靈活的配置,并降低對(duì)關(guān)鍵超參數(shù)的敏感性。對(duì)于LAAT,我們還引入了局部可變的信息素沉積機(jī)制,以避免在噪聲區(qū)域突出顯示虛假模式,并在高度對(duì)齊的區(qū)域減少移動(dòng)。我們?cè)趦蓚(gè)天文數(shù)據(jù)集中展示了這些新擴(kuò)展的效果,分別是合成的水母星系和N體宇宙網(wǎng)模擬。
引言 非線性降維[1]和流形學(xué)習(xí)技術(shù)[2]被應(yīng)用于許多領(lǐng)域,如醫(yī)學(xué)科學(xué)[3]、感官活動(dòng)識(shí)別[4],以在潛在的高維和大數(shù)據(jù)點(diǎn)云中找到低維結(jié)構(gòu)。天文學(xué)家通過(guò)分析留下的結(jié)構(gòu)來(lái)研究演化過(guò)程和宇宙相互作用的歷史,通常使用大型N體模擬[5]。這些結(jié)構(gòu)通常是非線性的、普遍存在的、分布廣泛的、大小和密度各異的,并且被大量背景噪聲所淹沒(méi),傳統(tǒng)的流形學(xué)習(xí)技術(shù)在這種情況下無(wú)法有效處理[1],[2]。拓?fù)浜虳elaunay鑲嵌用于提取中軸線在計(jì)算上代價(jià)高昂,對(duì)采樣效應(yīng)敏感,其結(jié)果很大程度上取決于所呈現(xiàn)的數(shù)據(jù)子集[6],[7]。其他方法包括結(jié)合馬爾可夫鏈的圖基方法[8],以及用于識(shí)別延長(zhǎng)噪聲簇的算法,如最長(zhǎng)腿路徑距離(LLPD)和基于噪聲去除的分層聚類算法(HCBNR)[9],[10]。然而,這些方法需要大量的內(nèi)存和計(jì)算時(shí)間,而且聚類技術(shù)通常需要提前設(shè)置簇的數(shù)量,并且難以應(yīng)對(duì)普遍存在的噪聲。
最近引入的“局部對(duì)齊螞蟻技術(shù)”(LAAT)[11],[12]可以檢測(cè)任意數(shù)量、不同維度和密度、嵌入在大量噪聲和異常值中的擴(kuò)散流形。該技術(shù)受到高效螞蟻群體算法的啟發(fā)[13],[14],它利用局部對(duì)齊信息和信息素動(dòng)態(tài)來(lái)增強(qiáng)/放大弱或低對(duì)比度的(微弱的)結(jié)構(gòu)。LAAT提取出作為底層流形拓?fù)湓氐南嚓P(guān)點(diǎn),這是1D恢復(fù)、提取和分析流形(1-DREAM)[15]流程的第一步,該流程隨后構(gòu)建每個(gè)結(jié)構(gòu)的稀疏表示。1-DREAM已在多種不同的天體物理場(chǎng)景中得到驗(yàn)證。在[16]中,對(duì)宇宙網(wǎng)內(nèi)的不同密度范圍的結(jié)構(gòu)進(jìn)行了提取。值得注意的是,與基于計(jì)算拓?fù)涞牧餍虚_(kāi)源拓?fù)浣Y(jié)構(gòu)檢測(cè)器DisPerSE[17]相比,該流程在發(fā)現(xiàn)絲狀結(jié)構(gòu)方面表現(xiàn)出更高的魯棒性,后者會(huì)產(chǎn)生更多的誤報(bào)或漏報(bào)。除了大規(guī)模模擬數(shù)據(jù)外,1-DREAM還用于分析天文觀測(cè)數(shù)據(jù),包括對(duì)球狀星團(tuán)潮汐尾部的詳細(xì)分析[18],以及對(duì)Jhelum流組件在位置和自行空間中的結(jié)構(gòu)分析[19],從而提供了關(guān)于可能的前身情景的見(jiàn)解。此外,在[20]中,1-DREAM被用于研究Fornax-Eridanus復(fù)合體周圍極其稀疏的絲狀網(wǎng)絡(luò)。雖然LAAT在其大多數(shù)參數(shù)方面相當(dāng)穩(wěn)健,但它會(huì)在高密度結(jié)構(gòu)周圍保留更多噪聲,這可以通過(guò)避免選擇全局閾值的局部后處理來(lái)緩解[21]。然而,可檢測(cè)結(jié)構(gòu)的大小和亮度取決于定義螞蟻局部視界的半徑,必須由用戶提前指定。因此,需要一種自動(dòng)策略來(lái)避免這種固定的、有影響力的選擇,同時(shí)保留廣泛的異構(gòu)流形。
1-DREAM流程的第二步涉及對(duì)LAAT提取的流形點(diǎn)云進(jìn)行去噪,以便后續(xù)建模。已經(jīng)提出了不同的降噪方法,例如一系列基于子空間的均值漂移算法[22],[23],或者將數(shù)據(jù)投影到流形上[2],[24],[25],[26]。特別是“流形模糊均值漂移”(MBMS)[25]是一種非參數(shù)的、尋找模式的算法,旨在去除噪聲并揭示高維數(shù)據(jù)中的底層流形結(jié)構(gòu)。MBMS擴(kuò)展了傳統(tǒng)的均值漂移框架,通過(guò)沿流形的估計(jì)切空間迭代平滑數(shù)據(jù)來(lái)納入局部幾何信息,這通常是通過(guò)局部主成分分析(PCA)獲得的,類似于LAAT。該方法采用迭代程序,通過(guò)投影標(biāo)準(zhǔn)均值漂移向量來(lái)移動(dòng)數(shù)據(jù)點(diǎn),從而抑制垂直于局部近似結(jié)構(gòu)的噪聲。MBMS在處理涉及噪聲或稀疏采樣數(shù)據(jù)的應(yīng)用中特別有效,這些數(shù)據(jù)集中在低維流形附近,包括矩陣完成[27]、識(shí)別構(gòu)造斷層結(jié)構(gòu)[28]和表面網(wǎng)格重建[29]等任務(wù)。與LAAT類似,MBMS依賴于固定的鄰域半徑,這對(duì)局部幾何估計(jì)以及隨后的逐漸增強(qiáng)和中心軸提取有重要影響。
在本文中,我們提出了對(duì)LAAT算法的兩項(xiàng)擴(kuò)展,即動(dòng)態(tài)局部半徑和動(dòng)態(tài)信息素沉積。這些新策略允許在微弱結(jié)構(gòu)中沉積更多的信息素,并在高密度區(qū)域和背景中保留更少的噪聲。為了證明該策略的有效性,我們?cè)诤铣蓴?shù)據(jù)集上進(jìn)行了敏感性分析,最后,我們使用它來(lái)分析一個(gè)大規(guī)模的天文宇宙N體模擬。在1-DREAM流程中,檢測(cè)不同維度流形的LAAT步驟之后是MBMS,用于確定一維和二維結(jié)構(gòu)的中心軸,從而有效地對(duì)其進(jìn)行去噪,以便后續(xù)建模。與LAAT類似,MBMS的結(jié)果也受到局部半徑選擇的強(qiáng)烈影響。因此,我們還用動(dòng)態(tài)半徑擴(kuò)展了MBMS,證明了在絲狀結(jié)構(gòu)中心軸的一致性和位置方面的幾個(gè)好處。通過(guò)比較原始和新的MBMS實(shí)現(xiàn)來(lái)去噪宇宙網(wǎng)N體模擬,展示了這種效果。
本文的結(jié)構(gòu)如下。第2節(jié)介紹了方法和新的擴(kuò)展。然后,第3節(jié)展示了實(shí)驗(yàn)和討論,第4節(jié)給出了結(jié)論和未來(lái)的工作。
方法論 “局部對(duì)齊螞蟻技術(shù)”(LAAT)[11]是一種基于螞蟻群體的算法,它在高效檢測(cè)和提取任意數(shù)量、不同維度和密度差異的噪聲流形方面越來(lái)越受歡迎,特別是在天體信息學(xué)[15],[16],[20],[30]中取得了顯著的成功。該算法考慮一個(gè) 維點(diǎn)的數(shù)據(jù)集,其中 表示維度數(shù)。在以 為中心、半徑為 的鄰域內(nèi),有
實(shí)驗(yàn)和討論 在本節(jié)中,我們使用在[15]中引入的合成水母星系,對(duì)LAAT中的新動(dòng)態(tài)半徑和信息素沉積進(jìn)行了參數(shù)敏感性分析。此外,我們?cè)谝粋(gè)從僅包含暗物質(zhì)的N體宇宙模擬中選取的 Mpc3 /h的立方體上展示了改進(jìn)效果,該模擬包含 個(gè)粒子。我們始終使用100個(gè)時(shí)代和 個(gè)半徑。在第一個(gè)(第二個(gè))實(shí)驗(yàn)中,我們使用了 只螞蟻( ),進(jìn)行了2500(12000)步,半徑范圍為[1,4](0.05至1.5 Mpc/h),并設(shè)定了最小數(shù)量
結(jié)論和未來(lái)工作 本文描述了對(duì)局部對(duì)齊螞蟻技術(shù)(LAAT)的兩項(xiàng)改進(jìn),用于在存在大量噪聲和異常值的情況下高效檢測(cè)和提取多個(gè)擴(kuò)散流形。該技術(shù)是稱為1-DREAM的天文信息學(xué)流程的第一步,允許分析大規(guī)模數(shù)據(jù)集,如N體模擬和天文觀測(cè)。這些擴(kuò)展引入并比較了幾種實(shí)現(xiàn)動(dòng)態(tài)半徑的策略
CRediT作者貢獻(xiàn)聲明 Felipe Contreras: 撰寫——原始草稿、可視化、驗(yàn)證、軟件、項(xiàng)目管理、方法論、調(diào)查、形式分析、數(shù)據(jù)管理、概念化。Reynier Peletier: 監(jiān)督、項(xiàng)目管理、方法論、形式分析、概念化。Kerstin Bunte: 撰寫——原始草稿、驗(yàn)證、監(jiān)督、項(xiàng)目管理、方法論、調(diào)查、形式分析、概念化。
利益沖突聲明 作者聲明他們沒(méi)有已知的競(jìng)爭(zhēng)財(cái)務(wù)利益或個(gè)人關(guān)系可能影響本文所述的工作。
致謝 Felipe Contreras感謝國(guó)家研究與發(fā)展機(jī)構(gòu)(ANID)/獎(jiǎng)學(xué)金計(jì)劃/DOCTORADO NACIONAL/2020-21200114的支持。