《Advanced Science》:Unsupervised Hierarchical Symbolic Regression for Interpretable Property Modeling in Complex Multi-Variable Systems
ABSTRACT
人工智能在化學(xué)分析中的進(jìn)展雖帶來強(qiáng)大預(yù)測模型,但模型可解釋性仍是挑戰(zhàn)。本研究引入無監(jiān)督分層符號回歸(UHSR),在保持競爭力的預(yù)測性能的同時(shí)提供可解釋解決方案。聚焦分子極性分析關(guān)鍵技術(shù)薄層色譜(TLC),UHSR自動提取化學(xué)直觀的保留指數(shù),發(fā)現(xiàn)連接分子結(jié)構(gòu)與色譜行為的可解釋方程。實(shí)驗(yàn)證明UHSR能從TLC數(shù)據(jù)集推導(dǎo)連接極性到分子結(jié)構(gòu)的簡潔準(zhǔn)確控制方程。100位化學(xué)專家調(diào)查表明,與傳統(tǒng)模型相比,UHSR模型獲得更多化學(xué)家信任。此外,研究還展示其超越分子極性的其他性質(zhì)預(yù)測任務(wù)的適應(yīng)性。
1 Introduction
科學(xué)發(fā)現(xiàn)旨在通過現(xiàn)象觀察、數(shù)據(jù)系統(tǒng)收集、模式識別和基本原理闡明來探索和理解世界,從而預(yù)測未來事件。數(shù)據(jù)驅(qū)動方法通過經(jīng)驗(yàn)方程和參數(shù)推導(dǎo)在闡明化學(xué)現(xiàn)象和預(yù)測實(shí)驗(yàn)結(jié)果方面起關(guān)鍵作用。例如亨利定律(C=kH·P)、阿倫尼烏斯方程(k=A·e–Ea/RT)和范特霍夫方程(lnK=–ΔH°/(RT)+ΔS°/R)仍是當(dāng)代化學(xué)基礎(chǔ)。
極性反映分子電荷分布的均勻性和對稱性,對理解分子相互作用和表征分子至關(guān)重要。色譜通過提供分子在不同化學(xué)環(huán)境下相互作用 insights 成為研究極性的重要工具。多年來,已開發(fā)各種色譜模型描述保留行為和極性驅(qū)動相互作用。例如線性自由能關(guān)系模型聚焦分析物-固定相相互作用,捕獲極性如何影響吸附和解吸過程。類似地,溶劑強(qiáng)度模型在反相液相色譜中廣泛使用。
薄層色譜(TLC)提供有機(jī)分子在各種有機(jī)溶劑環(huán)境中行為的關(guān)鍵 insights。極性是TLC關(guān)鍵因素,因?yàn)槿苜|(zhì)、溶劑和固定相之間的相互作用主要由極性和非極性特性差異控制。然而TLC通常勞動密集型且涉及許多重復(fù)試驗(yàn)。盡管在確定阻滯因子(Rf)方面重要,但先前結(jié)構(gòu)-Rf因子預(yù)測模型受TLC數(shù)據(jù)量和標(biāo)準(zhǔn)化限制。為解決這一挑戰(zhàn),我們先前工作引入自動高通量TLC分析平臺,為模型訓(xùn)練提供更廣泛和標(biāo)準(zhǔn)化數(shù)據(jù)集。這種增強(qiáng)數(shù)據(jù)集不僅提高預(yù)測模型性能,還能更好分析溶質(zhì)和溶劑之間的液-液相互作用。
近年來,人工智能(AI)輔助化學(xué)分析取得顯著進(jìn)展,特別是在定量構(gòu)效關(guān)系(QSAR)預(yù)測模型和定量結(jié)構(gòu)性質(zhì)關(guān)系(QSPR)預(yù)測模型開發(fā)方面。雖然這些模型實(shí)現(xiàn)顯著預(yù)測精度,但它們采用的AI模型和特征表示通常缺乏可解釋性,阻礙對數(shù)據(jù)集中潛在關(guān)系的更深理解。
缺乏透明度不僅限制這些模型的科學(xué)影響,還削弱研究人員完全信任和理解其預(yù)測的能力。為解決這一關(guān)切,越來越需要(1)透明模型和(2)可解釋特征表示,這些不僅實(shí)現(xiàn)高性能,而且與人類推理對齊并提供有意義 insights。
構(gòu)建透明模型的一種策略是闡明TLC分析中Rf值與溶質(zhì)分子結(jié)構(gòu)以及洗脫溶劑之間的顯式公式。符號回歸(SR)最近出現(xiàn)作為揭示數(shù)據(jù)集中復(fù)雜關(guān)系的有效方法,并顯著貢獻(xiàn)許多科學(xué)發(fā)現(xiàn)。然而,將符號回歸應(yīng)用于具有大量變量的數(shù)據(jù)集仍然具有挑戰(zhàn)性,因?yàn)樵黾幼兞繑?shù)量通常導(dǎo)致性能下降和過于復(fù)雜的公式,這削弱可解釋性。例如,如支持信息所示,當(dāng)符號回歸直接應(yīng)用于常用特征集(如物理化學(xué)描述符)時(shí),由于高維性,所得模型具有有限預(yù)測性能和降低的可解釋性。
在特征表示方面,分子指紋(如MACCS關(guān)鍵分子指紋)經(jīng)常在AI模型中使用。然而,這些表示通常高維且缺乏可解釋性,使得難以理解特定分子結(jié)構(gòu)如何影響模型預(yù)測。
本工作中,我們提出無監(jiān)督分層符號回歸(UHSR)(見圖1),一種由模塊化神經(jīng)網(wǎng)絡(luò)引導(dǎo)的新SR方法。UHSR引入新穎保留指數(shù)(例如溶劑保留指數(shù)和溶質(zhì)保留指數(shù)),這些通過模塊化神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。在領(lǐng)域知識引導(dǎo)下,該模型包含多個(gè)子模型,控制一組輸入變量(例如溶劑組成)與特定保留指數(shù)(例如溶劑保留指數(shù))之間的映射關(guān)系,以及保留指數(shù)與輸出變量Rf之間的映射。值得注意的是,此過程與化學(xué)家思維過程對齊。人腦難以處理高維信息,選擇不直接理解復(fù)雜映射,而是通過個(gè)體子模型分解和分析。然后,我們可以應(yīng)用SR方法于輸出Rf和保留指數(shù),有效降低SR算法輸入變量的維度。我們在TLC基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)證明,UHSR實(shí)現(xiàn)與DNN相當(dāng)?shù)母偁庮A(yù)測性能,同時(shí)提供連接Rf值(指示分子極性)與分子結(jié)構(gòu)特征的簡潔公式。重要的是,保留指數(shù)和控制方程由專家化學(xué)家評估,突出UHSR決策過程與化學(xué)家決策過程之間的一致性。此外,我們擴(kuò)展研究范圍到其他化學(xué)性質(zhì)預(yù)測任務(wù),如光譜性質(zhì)預(yù)測,其中我們的框架也展示高預(yù)測精度和可解釋性。
2 Results
2.1 Data-Driven Explainable Retention Indices
化學(xué)家需要準(zhǔn)確表征分子整體極性,因?yàn)闃O性影響分子相互作用、溶解度和色譜行為。為此,有許多已知描述符,如基于理論計(jì)算的分子極性指數(shù)(MPI)。雖然在某些情況下有效,但這些描述符有一些局限性。例如,它們通常計(jì)算昂貴,特別是對于大或復(fù)雜分子。此外,它們通常僅提供全局極性信息,未能捕獲單個(gè)功能團(tuán)或其對分子間相互作用特定貢獻(xiàn)的局部效應(yīng)。另一種估計(jì)分子極性的方法基于TLC實(shí)驗(yàn)。該技術(shù)直接測量Rf值,反映分子在特定實(shí)驗(yàn)條件下如何與固定相和流動相相互作用。與計(jì)算方法相比,TLC實(shí)驗(yàn)相對簡單、低成本且廣泛可及,計(jì)算方法通常需要先進(jìn)軟件、高性能計(jì)算資源和專家知識。通過改變?nèi)苜|(zhì)或溶劑組成并評估所得Rf值,化學(xué)家可以系統(tǒng)研究極性的方式直接適用于實(shí)驗(yàn)工作流程。
基于TLC作為研究分子極性的實(shí)用和實(shí)驗(yàn)基礎(chǔ)方法的優(yōu)勢,我們識別了傳統(tǒng)TLC數(shù)據(jù)分析方法中的幾個(gè)局限性,這些推動了本研究。雖然TLC實(shí)驗(yàn)提供有價(jià)值的Rf值反映分子極性,但這些原始實(shí)驗(yàn)輸出通常難以定量解釋,并且缺乏系統(tǒng)分離溶劑和溶質(zhì)對保留行為貢獻(xiàn)的能力。因此,我們開發(fā)了一種數(shù)據(jù)驅(qū)動方法來進(jìn)一步精煉分析。使用TLC數(shù)據(jù)集,我們提取兩個(gè)保留指數(shù),即Ψ和ξ,作為經(jīng)驗(yàn)描述符,提供關(guān)于溶劑系統(tǒng)和溶質(zhì)分子極性的信息。溶質(zhì)和溶劑之間的清晰化學(xué)分化,以及它們接近零的Spearman相關(guān)性,令人信服地驗(yàn)證了我們的統(tǒng)計(jì)方法,如圖S1詳細(xì)說明。
重要的是,與傳統(tǒng)的物理化學(xué)描述符相比,我們提出的指數(shù)直接植根于實(shí)驗(yàn)TLC數(shù)據(jù)集,這確保這些指數(shù)反映真實(shí)世界分子相互作用。此外,ξ提供關(guān)于分子極性的局部和詳細(xì)視角,例如特定功能團(tuán)如何通過它們對溶質(zhì)-溶劑和溶質(zhì)-固定相相互作用的特定貢獻(xiàn)影響極性。這種詳細(xì)分辨率允許ξ捕獲通常被傳統(tǒng)全局描述符忽略或平均掉的極性細(xì)微變化。
2.1.1 Chemically-Intuitive Feature Engineering
與常見機(jī)器學(xué)習(xí)使用分子指紋或常規(guī)物理化學(xué)描述符不同,我們的方法刻意標(biāo)記功能團(tuán),就像人類化學(xué)家通常做的那樣。這使得我們的特征天生可解釋且對實(shí)驗(yàn)化學(xué)家可訪問。具體而言,本研究涵蓋一系列溶質(zhì)分子,包括那些含羰基、羥基、氨基、鹵素、硝基和氰基官能團(tuán)的分子。這使得能夠定制分析這些功能團(tuán)如何影響化合物在不同溶劑中的Rf值,涉及類型、數(shù)量和分配。為符號簡潔,我們使用表1中的縮寫用于我們研究中使用的特征。該表還提供這些特征的描述和統(tǒng)計(jì)。
我們的方法實(shí)現(xiàn)顯著降維,僅需18個(gè)不同特征描述溶質(zhì)分子,相比MACCS關(guān)鍵分子指紋(167維)。雖然傳統(tǒng)物理化學(xué)描述符通常低維,但它們通常缺乏基于功能團(tuán)的特征提供的局部和可解釋表示。此外,功能團(tuán)是很好理解的化學(xué)實(shí)體,使得我們的結(jié)果可解釋且對研究人員(包括入門級化學(xué)家)可操作。
值得注意的是,方程可以從各種類型的描述符推導(dǎo),功能團(tuán)計(jì)數(shù)之外的替代描述符(物理化學(xué)描述符)也可能產(chǎn)生高精度。然而,這些替代描述符通常需要專門知識或計(jì)算資源,使得它們對需要可操作 insights 的實(shí)驗(yàn)研究人員較少可訪問和實(shí)用。相比之下,我們的特征直接且與實(shí)驗(yàn)化學(xué)家直接相關(guān),因此,它們彌合計(jì)算化學(xué)和實(shí)驗(yàn)實(shí)踐之間的差距。
2.1.2 Retention Indices
本研究中,TLC板上的固定相是硅膠。確定的Rf值體現(xiàn)動態(tài)平衡。它反映高極性固定相和溶質(zhì)分子之間的競爭相互作用,這些通過改變實(shí)驗(yàn)過程中流動相的極性通過相互作用力介導(dǎo)。這種相互作用展示兩種主要模式:溶劑通過毛細(xì)作用促進(jìn)溶質(zhì)向上傳輸;同時(shí),溶劑分子通過從固定相表面置換溶質(zhì)分子介入,減弱它們的相互作用(如圖2所示)。
兩個(gè)保留指數(shù)明顯捕獲溶劑化合物和硅膠之間以及溶質(zhì)分子和硅膠之間的相互作用動力學(xué)。重要的是,我們的方法能夠定量評估上述相互作用。在以下段落中,我們將分別分析這兩個(gè)指數(shù)。
2.1.2.1 Solute Retention Index ξ
考慮到數(shù)據(jù)集包含387種有機(jī)化合物,先前研究通常涉及高維特征(如167維MACCS密鑰)和物理化學(xué)描述符將溶質(zhì)分子編碼為數(shù)值。然而,前者通常對人類理解具有挑戰(zhàn)性,而后者未能滿足實(shí)驗(yàn)化學(xué)家快速評估新化合物極性的需求。我們還進(jìn)行了溶質(zhì)保留指數(shù)ξ與幾種現(xiàn)有物理化學(xué)描述符之間的比較分析,證明在TLC實(shí)驗(yàn)背景下溶質(zhì)保留指數(shù)ξ的優(yōu)越性。
為進(jìn)行本研究,我們仔細(xì)選擇16個(gè)代表性功能團(tuán),并使用它們的計(jì)數(shù)作為目標(biāo)分子的特征。此外,我們通過使用苯環(huán)數(shù)(NBen)和偶極矩(DM)表征這些功能團(tuán)在分子內(nèi)的分布。值得注意的是,通過進(jìn)一步精煉苯環(huán)內(nèi)功能團(tuán)的分配,我們能夠提高預(yù)測精度;相應(yīng)結(jié)果在支持信息中呈現(xiàn)。
雖然我們能夠?qū)⑻卣鲾?shù)減少到18,但在分子極性和這些輸入特征之間建立可解釋連接仍然是主要挑戰(zhàn)。
因此,我們區(qū)分兩個(gè)基本溶質(zhì)特性:功能團(tuán)(FG)計(jì)數(shù)和它們的空間分布(圖2A)。兩個(gè)方面對于闡明分子性質(zhì)(特別是極性)至關(guān)重要,極性深刻影響分子在各種溶劑和反應(yīng)環(huán)境中的行為。FG計(jì)數(shù)涉及16個(gè)預(yù)定義結(jié)構(gòu) motif,提供潛在反應(yīng)性和溶解度的 insights。雖然這些計(jì)數(shù)提供化學(xué)行為的初步理解,但分子性質(zhì)不是純粹加和的;來自基團(tuán)的線性貢獻(xiàn)可能不能完全捕獲化學(xué)現(xiàn)象的復(fù)雜性。因此,這些基團(tuán)的空間排列至關(guān)重要,因?yàn)樗绊懛肿拥膸缀涡螤、相互作用和立體化學(xué)性質(zhì),導(dǎo)致更全面的分子極性表征。因此,我們進(jìn)一步提取兩個(gè)指數(shù),即FG保留指數(shù)β和FG分布保留指數(shù)α,以隔離這兩種效應(yīng)。
盡管功能團(tuán)極性引起極大興趣,但缺乏定量和可擴(kuò)展的方法比較不同功能團(tuán)的極性;在當(dāng)前實(shí)踐中,化學(xué)家通常主要依賴定性分析和他們的經(jīng)驗(yàn)。我們的FG保留指數(shù)提供不同功能團(tuán)對分子極性影響的第一個(gè)經(jīng)驗(yàn)量化?紤]到本研究中涉及的16個(gè)功能團(tuán),用于獲得FG保留指數(shù)β的子模型的輸入特征包括16D向量,每個(gè)維度代表相應(yīng)功能團(tuán)的數(shù)量。為量化特定功能團(tuán)FGi的極性,我們配置輸入特征向量,使得第i個(gè)位置設(shè)置為1,其他設(shè)置為0。如圖2B所示,子模型的輸出揭示功能團(tuán)之間的明顯極性順序,即酰胺(1.43)>羧酸(0.88)>胺(0.80)>醇羥基(0.75)>酚羥基(0.43)>醛(-0.20)>酮(-0.20)>酯(-0.48)>硝基(-0.50)>氰基(-1.03)>氟(-1.03)>氯(-1.15)>醚(-1.22)>甲基(-1.28)>溴(-1.55)>碘(-2.97)。
為進(jìn)一步驗(yàn)證我們提出的溶質(zhì)保留指數(shù)ξ,我們進(jìn)行了與已建立分子性質(zhì)的Spearman相關(guān)性分析。溶質(zhì)保留指數(shù)與正辛醇-水分配系數(shù)(LogP,rs=0.50)展示中等正相關(guān)性,表明隨著LogP值增加,溶質(zhì)保留指數(shù)ξ一般有增加趨勢,表明我們的指數(shù)部分捕獲疏水特性。相反,溶質(zhì)保留指數(shù)ξ與拓?fù)錁O性表面積(TPSA,rs=-0.61)展示中等負(fù)相關(guān)性,突出隨著TPSA增加,溶質(zhì)保留指數(shù)ξ傾向于減少,有效捕獲與表面積相關(guān)的分子極性方面。
為全面比較,我們使用我們的溶質(zhì)保留指數(shù)ξ、MPI、LogP、TPSA和DM作為1D溶質(zhì)特性,在通過XGBoost模型建立的模型中使用五種溶劑體積百分比作為5D溶劑特性。此分析完全獨(dú)立于我們的UHSR模型,并進(jìn)行以評估ξ在單獨(dú)機(jī)器學(xué)習(xí)上下文中的預(yù)測能力。XGBoost模型作為評估不同溶質(zhì)特性預(yù)測能力的穩(wěn)健基準(zhǔn)。
具體而言,我們比較了XGBoost模型的預(yù)測性能,如表2a所示。溶質(zhì)保留指數(shù)ξ展示優(yōu)越預(yù)測性能,優(yōu)于其他溶質(zhì)描述符。我們還進(jìn)行了XGBoost模型內(nèi)基于樹的特征重要性分析,如圖S1詳細(xì)說明。這些分析突出溶質(zhì)保留指數(shù)ξ對其他傳統(tǒng)描述符的主要影響。
2.1.2.2 Solvent Retention Index Ψ
硅膠上的色譜保留來自靜電(偶極-偶極和離子-偶極)、氫鍵和范德華分散力的協(xié)同相互作用;分子極性僅代表這種吸附機(jī)制的一個(gè)組成部分。相應(yīng)地,我們定義溶劑保留指數(shù)Ψ作為每個(gè)純?nèi)軇┰诠枘z上凈吸附強(qiáng)度的經(jīng)驗(yàn)度量。
甲醇(MeOH)具有一個(gè)氫鍵供體(HBD)和一個(gè)受體(HBA),與表面硅醇和硅氧烷基團(tuán)形成六元和八元螯合物(見圖2C)。乙酸乙酯(EA)具有兩個(gè)HBA,通過其酯氧參與八元環(huán)復(fù)合物。乙醚(Et2O)具有單個(gè)HBA,僅允許一種氫鍵模式。二氯甲烷(DCM)帶有兩個(gè)氯,主要通過較弱偶極-偶極和分散力相互作用。相比之下,正己烷(Hex)僅通過弱分散相互作用吸附,不能置換更強(qiáng)吸附溶劑。在此框架下,吸附層次是MeOH > EA > Et2O > DCM > Hex。
用于獲得Ψ的子模型的輸入特征包括5D向量,每個(gè)維度代表溶劑化合物的體積百分比。因此,溶劑系統(tǒng)內(nèi)化合物比例的變化直接影響Ψ的值,從而改變?nèi)軇O性。此外,為隔離每種化合物的效應(yīng),我們可以將目標(biāo)溶劑化合物對應(yīng)的體積百分比設(shè)置為1,而其他設(shè)置為0。此方法產(chǎn)生以下值(見圖2B):ΨHex=-1.54, ΨDCM=-1.05, ΨEt2O=-0.42, ΨEA=-0.31, ΨMeOH=0.60。
與實(shí)驗(yàn)混溶性指數(shù)(LogP和水溶性)比較確認(rèn)Ψ捕獲溶劑-硅膠吸附的 combined 靜電、氫鍵和分散貢獻(xiàn)(見表2b)。
2.2 The RfGoverning Equation
為全面理解Rf值與兩個(gè)保留指數(shù)之間的關(guān)系,我們使用符號回歸制定經(jīng)驗(yàn)數(shù)學(xué)表達(dá)式連接Rf值和兩個(gè)保留指數(shù)(圖3A)。觀察到的Rf值直接從我們的自動高通量平臺獲得,而計(jì)算的Rf值從Rf控制方程計(jì)算(見方程1 below)。
為確保計(jì)算的Rf值位于0到1范圍內(nèi),采用S形函數(shù)(見圖3B)。通過使用符號回歸,獲得Rf控制方程的幾個(gè)候選(見表S1)。由于需要簡單公式,并考慮規(guī)定擬合精度(R2=0.908,RMSE=0.104),我們選擇Rf=σ(5.15Ψ+5.15ξ+1.55),其中σ(x)=1/(1+e–x)。
為分別分析溶劑和溶質(zhì)對Rf值的個(gè)體影響,我們進(jìn)一步分解方程1中的Rf公式為h(Ψ)和g(ξ)。例如,如圖3C所示,當(dāng)考慮特定溶質(zhì)分子(即固定溶質(zhì)保留指數(shù)ξ的值),我們可以重新表述方程1為Rf=h(Ψ)=σ(5.15Ψ+C1),其中C1取決于所選溶質(zhì)分子。圖3C中觀察到的模式顯示Rf隨溶劑保留指數(shù)Ψ增加。由于較大的溶劑保留指數(shù)Ψ值表示更大極性,這一發(fā)現(xiàn)強(qiáng)調(diào)溶劑保留指數(shù)Ψ與溶劑極性相關(guān)。此外,我們觀察到h(Ψ)圖形形狀對于不同溶質(zhì)分子顯著變化。特別是,圖3C表明,在我們的數(shù)據(jù)集上下文中,改變?nèi)軇┙M成僅對具有極端極性的溶質(zhì)分子的Rf有 subtle 效應(yīng)。類似地,當(dāng)溶劑固定時(shí),方程1可以重新表述為Rf=g(ξ)=σ(5.15ξ+C2),其中C2取決于所選溶劑保留指數(shù)Ψ的值。通過類似于先前情況(固定溶質(zhì))的分析,Rf值隨溶質(zhì)保留指數(shù)ξ增加。但現(xiàn)在,較大的溶質(zhì)保留指數(shù)ξ值表示較低極性。此外,我們觀察到g(ξ)圖形形狀在不同溶劑系統(tǒng)中是相同S形類型(見圖3C)。
由于數(shù)據(jù)限制,不同的模塊化神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)相似精度。然而,我們觀察到雖然保留指數(shù)變化,但發(fā)現(xiàn)的Rf方程保持相似形式 with varying parameters,如表S10–S12所示。在TLC實(shí)驗(yàn)中,保留指數(shù)的絕對值不如它們的相對值關(guān)鍵。保留指數(shù)的相對值是指導(dǎo)TLC分離過程的關(guān)鍵。鑒于基礎(chǔ)方程保持相似形式,保留指數(shù)的變化可以視為單位差異而不是基本性質(zhì)變化。例如,給定目標(biāo)分子和兩個(gè)溶劑系統(tǒng)(例如第一個(gè)溶劑系統(tǒng)的極性小于第二個(gè)溶劑系統(tǒng)),我們可能獲得兩組溶劑保留指數(shù)(Ψ1,Ψ2)和(Ψ′1,Ψ′2),相對關(guān)系保持相同,即Ψ1< />2, Ψ′1< />2。
2.3 Quantification of Solvent Polarity
除了表征洗脫溶劑極性,