熟女丝袜国产,国产无码二区,宫西光在线

基于大語言模型的“FAIR+環(huán)境”框架評(píng)估與提升美國PFAS污染數(shù)據(jù)的完整性與可用性

《Journal of Hazardous Materials Advances》：Enhancing PFAS Data Integrity: an LLM-Based FAIR+Environmental Principle for Improved Evaluation of Environmental Contaminants and Related Constituent Databases

【字體：大中小】 時(shí)間：2026年03月01日 來源：Journal of Hazardous Materials Advances 7.7

編輯推薦：

　　本研究提出創(chuàng)新的“FAIR+環(huán)境”評(píng)估框架，針對(duì)PFAS（全氟及多氟烷基化合物）環(huán)境監(jiān)測數(shù)據(jù)碎片化、質(zhì)量不均的難題，利用Few-shot CoT大語言模型（LLM）半自動(dòng)化評(píng)估了全美四大環(huán)境介質(zhì)（地下水、地表水、飲用水、土壤）超過100個(gè)數(shù)據(jù)集的FAIR（可發(fā)現(xiàn)、可獲取、可互操作、可重用）原則遵循度。研究發(fā)現(xiàn)，地表水?dāng)?shù)據(jù)FAIR評(píng)分最高（53.6%），地下水最低（45.2%）；跨州數(shù)據(jù)集的“可互操作”與“可重用”性顯著優(yōu)于單一州數(shù)據(jù)集。約34%飲用水樣本PFOA濃度超過4 ng/L標(biāo)準(zhǔn)限值，凸顯了污染風(fēng)險(xiǎn)與改善數(shù)據(jù)管理的緊迫性。

“永遠(yuǎn)的化學(xué)品”——全氟及多氟烷基物質(zhì)，因其在滅火泡沫、紡織品、食品包裝等產(chǎn)品中的廣泛應(yīng)用，已經(jīng)悄然滲透到我們的水、土壤乃至血液中。這類物質(zhì)的穩(wěn)定性和持久性帶來了巨大的環(huán)境健康風(fēng)險(xiǎn)，然而，關(guān)于它們究竟污染了哪些地方、污染程度如何，現(xiàn)有的監(jiān)測數(shù)據(jù)卻像一堆散落在各處的拼圖碎片。美國各地機(jī)構(gòu)和實(shí)驗(yàn)室各自為政，數(shù)據(jù)格式五花八門，報(bào)告標(biāo)準(zhǔn)參差不齊，使得科學(xué)家和政策制定者難以拼出一幅完整的全國污染圖景，也阻礙了有效的風(fēng)險(xiǎn)評(píng)估和治理行動(dòng)。為了打破這一僵局，來自加州大學(xué)歐文分校的研究團(tuán)隊(duì)在《Journal of Hazardous Materials Advances》上發(fā)表了一項(xiàng)開創(chuàng)性研究，他們提出了一個(gè)名為“FAIR+環(huán)境”的全新評(píng)估框架，并巧妙地利用大語言模型這把智能鑰匙，系統(tǒng)評(píng)估了全美一百多個(gè)PFAS污染數(shù)據(jù)庫的“健康狀況”，揭示了數(shù)據(jù)共享的短板與污染熱點(diǎn)，為未來數(shù)據(jù)整合與精準(zhǔn)治理指明了方向。

研究者們采用了幾個(gè)關(guān)鍵技術(shù)方法來開展這項(xiàng)系統(tǒng)性工作。首先，他們通過網(wǎng)絡(luò)爬蟲和手動(dòng)收集，全面獲取了美國范圍內(nèi)關(guān)于地下水、地表水、飲用水和土壤中PFAS的公開監(jiān)測數(shù)據(jù)集，共計(jì)超過100個(gè)，涵蓋從國家項(xiàng)目到州級(jí)項(xiàng)目的多層次數(shù)據(jù)源。其次，他們創(chuàng)新性地開發(fā)了“FAIR+環(huán)境”評(píng)估框架，在經(jīng)典的FAIR（可發(fā)現(xiàn)、可獲取、可互操作、可重用）數(shù)據(jù)管理原則基礎(chǔ)上，增加了針對(duì)環(huán)境污染物數(shù)據(jù)的“數(shù)據(jù)可整合性”和“數(shù)據(jù)質(zhì)量”兩個(gè)維度。核心方法在于構(gòu)建了一個(gè)半自動(dòng)化的大語言模型評(píng)估管道，利用基于Azure OpenAI的模型，通過Few-shot（少樣本）和Chain-of-Thought（思維鏈）提示工程策略，對(duì)數(shù)據(jù)集網(wǎng)站的元數(shù)據(jù)進(jìn)行自動(dòng)提取、解讀，并依據(jù)設(shè)定的評(píng)分細(xì)則（如是否包含持久標(biāo)識(shí)符、許可證信息、標(biāo)準(zhǔn)訪問協(xié)議等）進(jìn)行FAIR原則的自動(dòng)化評(píng)分，顯著減少了傳統(tǒng)專家手動(dòng)評(píng)估的工作量。最后，他們對(duì)整理后的PFAS濃度數(shù)據(jù)（特別是PFOA）進(jìn)行了詳細(xì)的統(tǒng)計(jì)分析和時(shí)空趨勢分析，以評(píng)估污染現(xiàn)狀與變化。

3.1. 美國PFAS數(shù)據(jù)集數(shù)量

研究發(fā)現(xiàn)，不同環(huán)境介質(zhì)中公開可用的PFAS監(jiān)測數(shù)據(jù)量存在顯著差異。地下水?dāng)?shù)據(jù)覆蓋最廣，所有50個(gè)州都有報(bào)告，這主要得益于全國性項(xiàng)目和大量的州級(jí)數(shù)據(jù)源。飲用水?dāng)?shù)據(jù)也較為廣泛，但在美國中部和西部仍存在區(qū)域空白。相比之下，地表水?dāng)?shù)據(jù)更為有限，僅有31個(gè)州有數(shù)據(jù)，且地理覆蓋不均。土壤則是數(shù)據(jù)最匱乏的介質(zhì)，只有14個(gè)州報(bào)告了PFAS數(shù)據(jù)，其時(shí)間和分析物范圍通常也很有限。

3.2. FAIR評(píng)估模型的性能

3.2.1. 模型性能比較

在測試的多種評(píng)估方法中，集成少樣本和思維鏈推理的大語言模型表現(xiàn)最佳，其預(yù)測的總FAIR分?jǐn)?shù)與人工基準(zhǔn)（ARDC工具）的誤差最小，是模擬專家進(jìn)行FAIR評(píng)估的最合適模型。該模型在處理不完整或模糊的元數(shù)據(jù)時(shí)，展現(xiàn)出更強(qiáng)的靈活性和魯棒性。

3.2.2. 基于LLM的FAIR評(píng)估的可重復(fù)性

使用同一提示詞對(duì)不同Azure OpenAI模型變體進(jìn)行測試的結(jié)果表明，盡管模型架構(gòu)和優(yōu)化策略不同，但它們?cè)贔AIR評(píng)分上表現(xiàn)出高度一致的趨勢，皮爾遜相關(guān)系數(shù)超過0.80，證實(shí)了基于大語言模型的FAIR評(píng)估具有較高的可重復(fù)性和可靠性。

3.3. 使用基于LLM的模型評(píng)估PFAS數(shù)據(jù)庫的FAIR性

3.3.1. 最佳模型（Few-shot CoT LLM gpt-4o）在美國PFAS數(shù)據(jù)庫上的表現(xiàn)

應(yīng)用最佳模型對(duì)PFAS數(shù)據(jù)庫進(jìn)行評(píng)估后發(fā)現(xiàn)，在不同環(huán)境介質(zhì)中，地表水?dāng)?shù)據(jù)集的平均FAIR分?jǐn)?shù)最高，為53.6%，這主要得益于其在“可獲取性”和“可互操作性”方面的強(qiáng)勢表現(xiàn)。飲用水?dāng)?shù)據(jù)集緊隨其后。而地下水?dāng)?shù)據(jù)集的FAIR分?jǐn)?shù)最低，僅為45.2%。研究還發(fā)現(xiàn)，覆蓋多個(gè)州的數(shù)據(jù)集在FAIR性上全面優(yōu)于單一州數(shù)據(jù)集，尤其是在“可互操作性”和“可重用性”方面優(yōu)勢明顯。與地球科學(xué)領(lǐng)域的非PFAS數(shù)據(jù)庫（FAIR遵循度可達(dá)88%-91%）相比，PFAS環(huán)境數(shù)據(jù)集的FAIR遵循度顯著偏低，凸顯了該領(lǐng)域在數(shù)據(jù)管理標(biāo)準(zhǔn)化方面的巨大差距。

3.3.2. 數(shù)據(jù)可整合性與數(shù)據(jù)質(zhì)量評(píng)估

評(píng)估顯示，標(biāo)準(zhǔn)FAIR原則的得分與環(huán)境數(shù)據(jù)集的實(shí)際“可整合性”和“數(shù)據(jù)質(zhì)量”之間關(guān)聯(lián)微弱。例如，飲用水?dāng)?shù)據(jù)集雖然容易整合，但往往缺乏方法透明度；而地表水和土壤數(shù)據(jù)集可能包含更豐富的細(xì)節(jié)，但整合起來又很困難。這證實(shí)了在評(píng)估環(huán)境污染物數(shù)據(jù)時(shí)，必須在FAIR原則之外補(bǔ)充針對(duì)數(shù)據(jù)整合與分析質(zhì)量的特定標(biāo)準(zhǔn)，這正是“FAIR+環(huán)境”框架的價(jià)值所在。

3.4. 美國PFAS濃度分析

3.4.1. 地下水中的PFAS濃度

PFOA和PFOS是地下水中最常被報(bào)告的PFAS物質(zhì)。分析顯示，來自已知PFAS污染源的地下水?dāng)?shù)據(jù)，其中位濃度和濃度范圍遠(yuǎn)高于非污染源數(shù)據(jù)。例如，密歇根州的數(shù)據(jù)中位濃度高達(dá)83.5 ng/L。在無已知污染源的數(shù)據(jù)中，沒有哪個(gè)州的PFOA濃度中位數(shù)超過4 ng/L的限值，但仍有22%的樣本超標(biāo)。時(shí)空趨勢分析表明，大多數(shù)州的地下水PFOA濃度沒有顯著的單調(diào)變化趨勢。

3.4.2. 地表水中的PFAS濃度

在地表水中，PFOA、PFOS、PFHxS和PFBS是最常被檢出的物質(zhì)。盡管各州報(bào)告中位濃度普遍較低，但仍有32%的樣本PFOA濃度超過4 ng/L。已知污染點(diǎn)的濃度中位數(shù)和分布范圍明顯更高。與地下水類似，大多數(shù)州的地表水PFOA濃度未呈現(xiàn)顯著的隨時(shí)間上升或下降趨勢。

3.4.3. 飲用水中的PFAS濃度

飲用水分析揭示了一個(gè)關(guān)鍵公共衛(wèi)生發(fā)現(xiàn)：盡管所有16個(gè)數(shù)據(jù)源的PFOA濃度中位數(shù)都低于4 ng/L，但高達(dá)33.8%（約24，166個(gè)）的個(gè)體樣本超過了這一最大污染物水平。在已知污染源的數(shù)據(jù)中，濃度和變異性更高。趨勢分析顯示，威斯康星州的濃度呈現(xiàn)上升趨勢，而馬薩諸塞州、密歇根州和堪薩斯州等在已知污染源地區(qū)顯示出下降趨勢，這可能與監(jiān)管或修復(fù)行動(dòng)有關(guān)。

3.4.4. 土壤中的PFAS濃度

土壤中PFOA的檢出頻率最高，濃度范圍從未檢出到超過10，000 ng/kg。緬因州和加利福尼亞州等地的數(shù)據(jù)顯示出較高的中位濃度和極寬的范圍，表明存在嚴(yán)重的局部污染熱點(diǎn)。然而，由于數(shù)據(jù)的時(shí)間覆蓋范圍和空間分布極為有限，目前難以確定全國性的土壤PFAS濃度時(shí)間變化趨勢。

該研究得出結(jié)論，當(dāng)前美國的PFAS環(huán)境監(jiān)測數(shù)據(jù)在遵循FAIR數(shù)據(jù)管理原則方面表現(xiàn)不佳，尤其是在“可重用性”上存在明顯短板，這制約了數(shù)據(jù)的整合利用與二次研究價(jià)值。為此提出的“FAIR+環(huán)境”框架及其配套的大語言模型半自動(dòng)評(píng)估管道，不僅能有效診斷數(shù)據(jù)現(xiàn)狀，更可作為未來數(shù)據(jù)采集、驗(yàn)證、標(biāo)準(zhǔn)化和發(fā)布的實(shí)用指南。在污染現(xiàn)狀方面，研究以高頻檢出的PFOA作為指示物，揭示了其在美國環(huán)境介質(zhì)中的復(fù)雜分布：地下水與土壤是污染最嚴(yán)重的“儲(chǔ)存庫”，而盡管地表水和飲用水的中位濃度較低，卻因與人類接觸密切而成為關(guān)鍵暴露途徑，其中約34%的飲用水樣本超標(biāo)，構(gòu)成了不容忽視的公共健康風(fēng)險(xiǎn)。一個(gè)值得關(guān)注的發(fā)現(xiàn)是，自相關(guān)自愿減排計(jì)劃實(shí)施以來，大多數(shù)地區(qū)的PFOA濃度并未顯示出顯著的下降趨勢，這表明歷史污染的持久性以及持續(xù)采取修復(fù)措施的必要性。這項(xiàng)研究的深遠(yuǎn)意義在于，它首次將前沿的人工智能技術(shù)系統(tǒng)應(yīng)用于大規(guī)模環(huán)境數(shù)據(jù)質(zhì)量評(píng)估，不僅為PFAS這一緊迫環(huán)境健康問題的數(shù)據(jù)治理提供了量化工具和清晰路徑，其“FAIR+環(huán)境”框架與智能評(píng)估范式，也可推廣至其他新興污染物的數(shù)據(jù)管理，從而助力于更高效、更科學(xué)的環(huán)境決策與公共健康保護(hù)。

相關(guān)新聞

生物通微信公眾號(hào)

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

知名企業(yè)招聘

熱點(diǎn)排行

新聞專題