日韩天码,午夜三级福利,顶级熟女在线

提示詞工程通過LLM模型集成策略加速光催化劑數據驅動發現

《Advanced Science》：Prompt Engineering Accelerates the Data-Driven Discovery of Photocatalysts via an LLM-Based Model Ensemble Strategy

【字體：大中小】 時間：2026年02月18日 來源：Advanced Science 14.1

編輯推薦：

　　本文提出一種融合自動化知識提取、可解釋機器學習與實驗驗證的閉環框架，旨在將海量非結構化科學文獻轉化為結構化數據庫。文章聚焦缺陷工程化氮化碳（g-C3N4）光催化劑，通過系統優化的提示詞工程與多模型集成策略，實現了高達90%精度和召回率的關鍵參數提取。基于高質量數據集訓練的機器學習模型揭示了比表面積（170 m2g?1）與帶隙（≈2.31 eV）是主導光催化性能的關鍵參數，并利用SHAP可解釋性分析闡明了性能與帶隙之間的非單調關系及最佳范圍。最終，數據驅動的合成指導取得了與預測值偏差小于5%的實驗驗證結果，為功能性材料的加速開發提供了可擴展的范例。

1 引言

先進材料的發展長期依賴經驗關聯與數據驅動建模，而機器學習雖提升了預測能力，卻受制于所需系統化數據的匱乏。大量關鍵材料信息仍被“鎖定”在非結構化的科學文獻文本中，構成材料發現的瓶頸。盡管存在基于規則的工具，但其淺層模型、人工規則與繁瑣預處理限制了其在復雜領域內容中的魯棒性。大語言模型的興起帶來了變革，其深層上下文理解能力為自動化高保真數據提取提供了新范式。然而，將通用大語言模型直接應用于材料科學領域常缺乏針對其專業術語和隱式數據呈現方式所需的專業調優，凸顯了提示詞工程在實現領域特定準確性中的關鍵作用。系統性的提示詞工程是引導大語言模型推理過程的關鍵接口，在材料科學中，這涉及設計能明確定義技術術語、指定輸出格式并解讀跨模態數據的提示詞。

為了構建用于光催化劑設計的綜合數據庫，研究實施了一種基于三支柱原則的目標合成參數選擇方法：參數必須與光催化性能有既定的理論或經驗聯系、必須在目標文獻中有足夠高的報告頻率以確保數據集完整性、必須能夠從文本、表格或圖表中明確量化或分類。鑒于當代大語言模型的優勢各異，最優性能需要基于架構優勢進行戰略性的模型選擇，這反映了一種利用專業化模型或組件的更廣泛趨勢。多模態能力對于科學提取尤為關鍵，因為關鍵參數常存在于圖表而非文本中。通用模型提供平衡性能，而專長于長上下文、推理或多模態的模型則在特定領域表現出色。這種多樣性促成了模型集成策略，通過集成專門化模型來動態路由任務，利用各自優勢以提升性能。通過精準提示詞工程協調的集成方法超越了單模型的局限，顯著提升了提取的準確性和魯棒性。

由該策略產生的高質量結構化數據庫使得后續的機器學習分析成為可能，旨在建立材料參數與光催化性能之間可靠的預測關系。應用可解釋機器學習方法，特別是SHapley Additive exPlanations（SHAP），有助于解碼復雜模型行為以闡明潛在的物理化學原理。這些數據驅動的洞察產生了可操作的設計原則，可直接指導合成方案的優化。

該方法對于石墨相氮化碳（g-C₃N₄）光催化劑具有特別價值，其數據碎片化嚴重阻礙了進展。作為一種重要的可見光驅動析氫光催化劑，g-C₃N₄存在電荷復合與光吸收有限的問題。盡管通過空位、摻雜或結晶度控制的缺陷工程能有效增強析氫活性，但關鍵的合成-性能關系仍分散在大量文獻中，阻礙了機器學習指導的設計。因此，基于任務特定模型專業化的原則，本研究提出一種模型集成策略，以自動化構建缺陷工程g-C₃N₄光催化劑的高質量結構化數據庫。該框架在提取合成參數和析氫效率指標上達到了90%的準確率/召回率，對該數據集的機器學習建模揭示了結構特征（如比表面積、帶隙）與析氫速率之間的定量非線性關系。預測通過靶向合成得到了實驗驗證，證實了模型的可靠性。這項工作為加速功能性材料的發現建立了一條可擴展的途徑，并突顯了大語言模型在克服先進材料研究中的數據碎片化挑戰方面的變革性作用。

2 結果與討論

2.1 數據提取流程概覽

針對缺陷工程g-C₃N₄材料合成條件、缺陷類型和性能指標分布在文本、表格和圖表等多種異構格式中的挑戰，研究提出利用多模態視覺語言模型，借助其集成的跨模態推理能力同時解析文本和視覺信息，實現對以往傳統流程無法獲取的高維材料數據的整體提取。

研究系統收集了2015年1月至2025年8月間關于缺陷工程g-C₃N₄析氫光催化劑的175篇研究文章。為應對數據在不同出版物中定位不一致的問題，研究實現了自動化預處理流程：將文章PDF及其支持信息文件程序化合并為單個PDF文檔，然后由多語言模型提取系統處理，基于Selenium的自動化實現了規模化批處理，消除了人工干預。對各模型輸出的比較分析促進了一個高質量缺陷g-C₃N₄光催化析氫數據庫的構建，該數據集為后續機器學習驅動的理論指導提供了基礎，其準確性通過實驗驗證得到確認。

2.2 提示詞工程與工作流程自動化

針對材料科學文獻的復雜性，研究使用CO-STAR框架開發了結構化的提示詞工程策略，通過迭代優化系統性地確保技術定義的清晰性、任務對齊性和結構化輸出格式。該方法結合XML分隔符來處理材料信息學中的數據碎片化挑戰。該框架的結構化組件確保了不同科學報告風格的一致性，而XML標簽通過清晰分隔指令和數據輸入，增強了解析準確性。

研究采用了零樣本提示策略，模型響應迭代地優化后續查詢。通過多個優化循環，提示詞被系統校準，以解決導致不完整輸出的模糊措辭。此過程引入了明確的參數定義和數值數據識別的結構化指導，顯著提高了提取準確性，同時為理解大語言模型如何解讀科學文獻提供了洞見。

為實現規模化處理，研究開發了自動化管道以取代勞動密集型的手工處理。與專家手動提取的基準測試相比，處理時間加速了五倍，改變了數據獲取效率，并將研究人員精力重新分配到戰略性工作中。

2.3 數據提取與模型協作的性能評估

為進行嚴謹評估，研究通過手動整理61篇科學出版物建立了包含153個獨特缺陷工程g-C₃N₄條目的基準數據集，每個條目標注有多達19個關鍵參數。為處理缺失數據，建立了系統協議：未報告的大氣條件默認為空氣，未量化的參數明確記錄為N/A。

性能通過三元分類系統進行量化，并計算每個參數的精確率、召回率和F1分數，提供了系統準確性的多層面基準。面對通用大語言模型在專業領域的固有局限，研究實施了模型集成框架以戰略性利用模型多樣性。十個多模態大語言模型獨立處理了基準集，它們的性能異質性顯著，例如在關鍵參數上觀察到頂級和底層模型之間超過30%的精確率差異。這些量化差異被用于設計模型集成架構的動態專家路由邏輯，從而將模型異質性從挑戰轉化為戰略優勢。

評估還通過頻率分布熱圖擴展到逐條數據質量，該熱圖可視化了所有模型中每條條目正確提取的參數數量。基于這些多維洞察，最終構建了一個由四種語言模型組成的集成系統，其參數特定的模型分配詳情可查。由此產生的模型集成管道取得了優異的準確性：超過50%的參數實現了90%以上的精確率/召回率，所有剩余參數均超過80%。至關重要的是，集成模型在每一個參數上都持續優于任何單一模型，這一優越性通過雷達圖分析得到定量驗證。

多模態理解的關鍵重要性通過一項對照比較得到確證。在同一組61篇出版物上評估時，多模態GPT-4o在所有指標上始終優于純文本GPT-4。這一性能差距突顯了材料科學文獻的一個基本方面：關鍵性能數據，如能帶能量和反應動力學，通常編碼在圖表而非顯式文本中。

比較分析最初揭示了GPT-4o在結構化科學數據提取方面相對于早期GPT-5版本的意外性能優勢。為深入檢驗，研究在相同提示條件下評估了更新版本的模型。該更新版本的性能與GPT-4o大致相當。研究假設最初的差異可能歸因于模型成熟度和穩定性的不同；經過廣泛精煉的GPT-4o可能為精確提取提供了更可預測的行為，而新模型系列的早期迭代可能表現出不穩定或過度解釋，阻礙了結構化輸出。這一系列實驗強調了，在沒有針對性優化的情況下，通用大語言模型的漸進式版本升級并不會自動轉化為專業任務的顯著收益。這凸顯了在為科學人工智能工作流程選擇工具時，進行領域特定基準測試的必要性，而非依賴于假定的架構優越性。

最終的工作流程協同整合了四種戰略選擇的大語言模型，每種模型貢獻了不同的專長。GPT-4o提供了頂級的跨模態推理能力。DeepSeek R1表現出卓越的可解釋性，生成帶有明確圖表引用的逐步推理，甚至在關鍵的光催化效率參數上比GPT-4o的準確率高1%。Claude在多個指標上與GPT-4o性能相當，而百川AI則提供了穩健的領域特定提取能力。這種戰略整合，與將任務路由到專門化模型的原則相一致，有效地將架構多樣性轉化為集體性能增益。

2.4 機器學習與可解釋性分析

為建立缺陷工程g-C₃N₄析氫預測模型，研究采用機器學習方法，使用結構化數據集進行建模。輸入特征包含數值變量和獨熱編碼的分類變量，以光催化析氫效率為目標。首先對目標變量進行對數轉換以緩解其長尾分布，確保模型訓練的魯棒性。然后使用10折交叉驗證評估模型性能，該策略旨在驗證模型的泛化能力。

研究對五種先進的集成算法進行了基準測試，基于R²和均方根誤差指標，CatBoost被確定為最優模型，在訓練集和測試集上均表現出色。其強大的泛化能力凸顯了所整理數據集的高質量，并將CatBoost定位為指導光催化劑設計的可靠預測器。

為超越模型的“黑箱”性質并提取物理洞察，研究進行了SHAP分析。這種可解釋性分析至關重要，因為它彌合了數據驅動預測與基礎物理化學原理之間的差距。SHAP分析表明，比表面積是主導光催化性能的最重要特征，帶隙是次要的熱力學因素。這一清晰的層次結構立即提供了一個可操作的設計原則：優化光催化活性需要最大化可及表面位點，同時通過帶隙工程策略性地調整電子結構。

更深入地，SHAP依賴性分析揭示了比表面積與光催化析氫效率之間關鍵的非線性關系。隨著比表面積增加，SHAP值由負轉正，最終趨于平穩。這一趨勢反映了潛在的材料行為：適度的比表面積擴張增強了活性位點密度和電荷分離，提升了性能。然而，超過一個最佳閾值（～170 m²g^?1）后，由于活性位點飽和以及光吸收減少等競爭性限制的出現，會出現收益遞減。這一從模型中直接獲得的洞察強調了平衡結構設計的必要性，而非盲目追求最大比表面積。

在帶隙上也觀察到了類似具有指導意義的非單調關系。SHAP值在最窄帶隙處（2.4 eV）最有利，隨著帶隙增寬超過～2.7 eV，SHAP值變得不那么正，最終轉為負值。這種“先增后減”的軌跡證實了光催化劑設計中的一個基本權衡：窄帶隙有利于光吸收但存在快速電荷復合的風險，而寬帶隙則阻礙光收集。所確定的約2.2–2.4 eV的最佳范圍為合成工作提供了定量目標。

最后，SHAP推導出的關系被形式化為連接析氫效率與比表面積和帶隙的經驗函數。這些函數作為實用的篩選啟發式方法，確立了高性能g-C₃N₄的定量設計目標：比表面積170 m²g^?1，帶隙≈2.31 eV。通過將復雜的模型洞察轉化為簡單、可操作的閾值，該方法顯著簡化了光催化劑開發中的初始篩選過程。因此，由可解釋機器學習揭示的潛在物理化學原理為這些可操作的設計原則奠定了堅實的基礎。

2.5 實驗驗證與性能評估

為驗證機器學習框架，研究合成了六種缺陷工程g-C₃N₄催化劑，其比表面積和帶隙范圍廣泛覆蓋了模型預測的參數空間。全面的結構和光學表征證實，缺陷工程成功地在催化劑系列中引入了系統性變化。X射線衍射確認所有樣品均保留了特征性的石墨相氮化碳物相。掃描電子顯微鏡揭示了從樣品一到樣品六逐漸增加的褶皺和多孔形貌，這與測量的比表面積增加提供了視覺關聯。至關重要的是，結合源自紫外-可見光譜的Tauc圖和莫特-肖特基測量結果，可以精確測定每個催化劑的能帶結構。所得數據將樣品六確定為具有最窄帶隙和最高比表面積的催化劑，直接突出了兩個關鍵參數——帶隙和比表面積——正如模型所識別的那樣，通過合成方案得到了系統調控。

數據-模型管線的真正驗證來自光催化析氫測試。結果顯示從樣品一到樣品六的活性單調增加，這一趨勢可直接歸因于帶隙逐漸變窄和表面積擴大的協同效應。這種實驗觀察到的結構-性能關系與機器學習模型的預測完全一致。此外，預測的析氫速率與實驗結果高度吻合，所有樣品的相對偏差均低于5%，這在光催化測試的固有不確定度范圍內。這種強烈的預測-實驗一致性為從數據提取到模型預測的整個工作流程提供了穩健的經驗概念驗證。

3 結論

功能性材料的快速發現常常受困于從非結構化科學文獻中提取結構化知識的困難。本研究開發了一個閉環的數據-模型-實驗框架來應對這一數據碎片化挑戰，并實現了從碎片化科學文獻中高效推導材料設計原則。

利用自動化文獻挖掘，我們為缺陷工程g-C₃N₄光催化劑構建了一個標準化的缺陷-性能數據庫。對所整理數據集的機器學習分析確定比表面積和帶隙是主導光催化析氫活性的關鍵描述符，其最佳值分別為～170 m²g^?1和2.2–2.4 eV。進一步的解釋揭示了帶隙的非單調影響，反映了光吸收與電荷復合之間的權衡。

這些數據驅動的洞察通過代表性g-C₃N₄光催化劑的合成與表征得到了實驗驗證，其結果與模型預測高度一致。預測與測量析氫速率之間的緊密對應證實了所提出的數據-模型-實驗工作流程的可靠性，突顯了其作為一種可推廣的數據驅動材料發現框架的潛力。

總之，這項工作不僅提供了一個孤立的案例研究，更建立了一個可擴展和可轉移的模板，用于加速功能性材料的發現。通過將自動化知識提取、可解釋機器學習和實驗驗證無縫集成，我們的方法將碎片化的科學文獻轉化為可操作的設計智能。因此，該管線為加快先進材料的開發提供了一種強大的策略，從能量存儲到多相催化，實現了人工智能加速材料科學的具體化。

然而，某些局限指導了我們框架的當前設計。它嚴重依賴提示詞工程和模型集成策略，而非采用更深層次的架構修改，例如微調或實施專門的路徑框架。雖然我們的方法已被證明有效，但利用真正任務特定的路徑架構可能會在性能和效率方面提供進一步的改進。此外，隨著數據量的增加和數據質量的提高，對單個模型進行微調或集成基于智能體的工作流，例如那些用于自主科學發現的工作流，可能有助于優化我們的框架并增強其在不同材料領域的適應性。這些方法將實現更精確和高效的數據提取，提供額外的靈活性和準確性層次。未來，計劃探索這些先進技術，包括模型微調、更專門的路徑架構和智能體人工智能，以進一步增強我們框架的性能和可擴展性。

熱點排行

新聞專題