2025精品偷拍视频,欧美做受???免费,欧美日韩午夜

體內毒理學研究變異性透視：對新方法毒理學的考量與基準建立

《Frontiers in Toxicology》：Perspectives on variability of in vivo toxicology studies: considerations for next-generation toxicology

【字體：大中小】 時間：2026年03月02日 來源：Frontiers in Toxicology 4.6

編輯推薦：

　　這篇綜述系統評述了多種標準動物毒性測試（如OECD TG 405/429等）結果的重復性（replicability）與變異性。文章匯總了眼部刺激、致癌性等終點數據的定量與分類變異性指標，指出傳統體內研究存在顯著差異，其變異性應作為評估新方法（NAMs）性能的基準。理解并整合這種變異性，對于建立對NAMs“等效或更優”的合理預期、推動其監管應用至關重要。

毒理學領域正經歷從傳統動物模型向新方法（New Approach Methodologies, NAMs）的范式轉變。這一轉變的核心要求是，NAMs的性能必須被證明至少與它們旨在替代的傳統體內測試“等效或更優”。然而，要確立這一比較基準，首先必須深刻理解現有動物研究本身的性能，特別是其結果的變異性。本文旨在通過系統回顧已發表的關于標準體內毒理學研究變異性的分析，為這一關鍵問題提供全面的視角。

引言

推動毒理學從動物模型向NAMs發展，需要對動物研究的性能有堅實的理解，以確保NAMs的性能相當或更好。“等效或更優”可以從多個維度定義，包括更具機制洞察力、更具生物學相關性（例如，使用基于人類的測試系統預測人類效應），以及與傳統的基于動物的測試相比，在重復數據本身或安全評估結論方面變異性更低。本文的重點是通過回顧具有定量和/或定性終點的重復研究的變異性，來表征體內研究結果的變異性。所回顧的研究涵蓋了不同類型的健康效應測試指南，包括眼部刺激、皮膚致敏和刺激、急性致死性、亞慢性和慢性重復劑量毒性、內分泌、致癌性、神經毒性、發育神經毒性（DNT）和遺傳毒性測試。表征源自指南動物研究（或類似指南的研究，指與指南操作僅有微小差異）的數據變異性，可以為NAMs在變異性和重復性方面的性能提供基準。

評估毒理學研究變異性的概念是多方面的，其理解和定義取決于“變異性”概念的應用場景和方式。變異性的評估可以考慮重復研究數據的差異、整體解釋以及對相關毒理學結果的預測。美國國家科學院以程序化的方式定義了相關術語“可重復性（Reproducibility）”，即當計算評估使用相同的輸入數據、分析步驟、方法、代碼和分析條件時，應獲得一致的結果。相反，美國國家科學院將“可重復性（Replicability）”定義為針對同一科學問題的多個研究所得結果的一致性概念。數據變異性的概念還包括“普遍性（Generalizability）”，即研究結果可應用于其他背景或群體（例如，人類健康評估的物種外推，以及從少數模型物種外推到生態系統中物種的多樣性）。為澄清本文使用的定義，我們已在表1中總結了這些術語。必須理解用于評估變異性和判斷一項研究是否具有可重復性、可復制性和普遍性的適當數據與方法，才能深入洞察現有方法對于特定目的是否可靠，并應用于為相同或相似終點建立NAMs的基準。我們的分析主要關注可重復性，因為現有數據包括源自相同（或相似）指南的重復研究。

用于監管應用的毒性測試標準方法是使用測試指南。這可以包括經濟合作與發展組織（OECD）協調測試指南、美國環境保護局（EPA）健康效應系列870測試指南、國際人用藥品注冊技術協調會（ICH）指南或國際標準化組織（ISO）測試標準。此類標準化測試指南為國際監管提交提供了可接受的研究設計。OECD協調的TG旨在穩健，強調物種、研究時長、暴露途徑和終點的標準化。然而，OECD TG并非標準操作程序；它們刻意允許在動物品系、暴露媒介、分析終點的實驗方法以及評估數據的統計方法等方面存在一定的方案靈活性。研究報告仍需包含研究如何進行描述，并提供研究所有方面的記錄。此外，所有OECD成員國的監管機構都要求應用良好實驗室規范（GLP），以確保研究實施質量和完整性的詳細記錄。遵守GLP可確保試劑和受試物的妥善儲存、實驗室設備的維護和準確性、動物飼養、分析方法、受試物表征等。在GLP下使用TG進行的研究，如果提供了充分的測試方法文件記錄，并且共享了研究設計參數，則可能為可重復性分析提供便利。一個主要的實際挑戰是獲取記錄良好的研究數據，然后將其協調和整理到支持回顧性分析的數據庫中。

盡管遵守TGs和GLP可以支持體內指南研究的方法學一致性，但在研究內部和研究之間仍然經常觀察到在有限的可重復性、可復制性和普遍性方面的固有變異性。毒理學正處于一個關鍵時刻，過去幾十年產生的毒理學數據正在被整理，以評估它們為NAMs建立適當基準的能力，而NAMs通常需要證明其性能與傳統方法相比“等效或更優”。整理數據的可用性支持了對多種體內研究類型變異性的若干分析，但迄今為止，這些分析尚未被匯總和評述。最終，更好地理解體內變異性對于在監管評估中利用NAMs至關重要，因為這種理解有助于為NAMs檢測性能建立更現實的數據驅動預期。因此，我們試圖匯總來自體內指南研究類型的現有變異性表征。本文的重點不是試圖評估在最優實施并遵循最新科學標準的TGs下可能達到的最低理論變異性，而是整理現有的、已生成并用于毒理學決策的TG數據計算出的可重復性。

材料與方法

我們進行了文獻綜述，以識別描述體內毒理學研究變異性分析的出版物。最初，使用PubMed（包括MEDLINE）和Causaly數據庫進行了文獻檢索。醫學主題詞（MeSH）和文本詞包括“變異性”、“可重復性”及其變體，與“體內”、“動物研究”、“實驗研究”和其他相關替代詞組合。文獻檢索專注于1990年至2023年4月（進行原始檢索的日期）期間發表的出版物。這項不限于毒理學、TG或變異性/可重復性分析類型的廣泛搜索產生了大約8,500篇出版物，證實了生命科學中變異性的評估是一個廣泛探討的主題。

將范圍限制在僅包含變異性分析、系統評價和體內研究薈萃分析的出版物，大大減少了文獻集。隨后進行了手動篩選，首先通過標題和摘要，然后通過審查優先子集的全文，以排除不相關的文章并遵守定義的范圍。這種分層手動篩選識別出大約100篇相關手稿；對這組文獻進行了數據提取和納入審查，依據是定量分析或相關討論，涉及生物測定中變異性的來源。這提供了大約60篇手稿，其中包括關于哺乳動物體內研究（不一定是毒理學）科學可重復性的最新科學報告和關于潛在變異性來源的背景信息，這些信息用于為我們的討論提供依據。

從這組文獻中，我們選擇了與毒理學相關的研究評估，特別是遵循與人類健康相關的TGs（來自OECD和EPA系列870健康效應）的研究總結。這些類似指南的研究符合一套標準，這些標準要么與現有監管指南一致，要么遵循監管評估中使用的標準化方案。我們優先評估了來自哺乳動物研究的數據，包括不特定于毒理學的體內研究的變異性分析。最終，產生用于理解相關毒理學研究（例如，TG或類似指南）可重復性的定量變異性分析的出版物數量為27篇。這個子集是通過排除不直接測量體內結果和終點的研究來確定的，例如Ames試驗，以及被認為過于復雜而無法評估可重復性的代謝組學和疫苗評估等終點。

在我們的文獻集中，一些報告評估了總體相似但存在微小差異（例如，使用不同的給藥媒介）的研究的變異性。對于那些研究，我們評估了所有研究之間的可重復性，而不管微小的研究差異。這樣做是為了保持一致性，因為并非所有分析都做了這樣的區分來考慮研究設計。在包含多種分析的研究中，我們提取了最具代表性的匯總指標。例如，當分別對雄性、雌性和所有動物進行分析時，我們只考慮了包括所有動物的評估。因此，我們的數據匯編包含了不同的數據格式，無意跨研究類型進行比較；本變異性評述的目的是匯編數據并呈現參考值，作為更好地理解體內毒理學研究的資源。

報告的可重復性總結既包括分類終點，也包括定量終點。考慮分類方案的變異性分析僅限于那些使用EPA和聯合國全球化學品統一分類和標簽制度（GHS）方案的分析。我們沒有將歐洲特定的分類、標簽和包裝（CLP）標準的可重復性納入我們的評述。分類可重復性在文獻集中通常以條件概率的形式報告。條件概率表示在給定化學物質先前分類的情況下，將其分配到某個類別的概率，同時考慮該化學物質被分類的研究數量。計算如前所述進行。

連續定量終點的可重復性按照主要文獻來源的描述報告。我們考慮了傳達重復研究方差某些方面或由研究元數據（例如，實驗室、物種、品系等）解釋的重復研究方差的統計指標（例如，標準差[SD]、變異系數[CV]、決定系數[R²]和均方根誤差[RMSE]；見表2）。

結果

我們檢索了已發表的關于體內毒理學指南研究可重復性的回顧性評估，涵蓋了多種毒理學終點：眼部刺激、皮膚致敏和刺激、急性口服和吸入致死性、亞慢性和慢性毒性、致癌性、神經毒性（包括DNT）、內分泌和遺傳毒性（表3，4）。雖然檢索到的文獻集包括對可被視為“復雜”的研究類型（即致癌性和DNT）的變異性評估，但對于其他復雜終點，例如產前發育毒性研究和多代生殖毒性研究的子代、延遲神經毒性或毒代動力學，沒有找到相關的評估。

量化可重復性在大多數檢索到的出版物中被指出是一個重大挑戰。基于動物的指南研究大多沒有經過驗證過程，而是基于歷史先例被采用，這為比較提供的參考點很少。多年來，一些指南已經更新，并且引入了更嚴格的GLP要求，但目前沒有足夠的數據來穩健地評估這些變化對變異性的影響；因此，本文匯總的所有分析都將所有歷史結果匯總到一個文集中進行分析。此外，應注意的是，所有測試化學品的測試數據都匯總在一起，因為本文沒有進行化學信息學評估來深入研究每個研究的化學類別變異性差異（盡管一些參考研究對某些終點的化學結構對變異性的影響進行了粗略評估），這通常是由于沒有足夠的數據進行穩健評估。因此，本文匯總的可重復性評估依賴于單個受試物（無配方或混合物）的重復測試。如上所述，我們將分析重點放在兩種主要類型的可重復性上：結果的可重復性，即分類可重復性（表3）和連續數據的可重復性（表4）。

分類可重復性

分類可重復性分析側重于具有分類解釋的研究類型，分類解釋可以是陽性或陰性的二元結果，也可以是危害分類的指定。我們評述中具有二元分類終點的研究類型包括內分泌測定（Hershberger和子宮增重）、遺傳毒性研究、致癌性研究和DNT研究（表3）。Hershberger和子宮增重測定顯示出相似的可重復性程度：分別為72%和74%。對于致癌性，兩項先前的變異性評估得出了不同的結果：在同一物種不同性別之間比較時，可重復性為65%–86%，或在不同物種（大鼠和小鼠）之間比較時，可重復性為36%–74%。

更復雜的分類分析是針對使用多類別危害分類方案根據定量或定性研究結果對化學品進行分類的研究進行的。如上所述，我們對可重復性這一方面的評估僅限于使用GHS（化學品危害分類最常見的分類系統）和EPA分類方案（針對EPA感興趣的特定終點）的研究。這些系統具有不同的類別界限和不同數量的類別。

在可能的情況下，使用條件概率評估了多類別可重復性，這些條件概率來自回顧性變異性分析或根據現有的研究信息計算得出。作為參考點，隨機分配類別相當于二元分類方案的50%可重復性，或三類別和四類別系統的33%和25%可重復性。具有此類數據的終點包括眼部刺激/腐蝕、皮膚致敏、皮膚刺激/腐蝕、大鼠急性口服致死性和大鼠急性吸入致死性（表3）。可重復性通常在類別較少的分類系統中更高。對于遺傳毒性研究，三個類別（陽性、陰性或模糊結果）的可重復性差異很大，介于23%和78%之間，具體取決于TG及其方案變體。在許多研究和終點類型中，很少觀察到可重復性高于75%，特別是對于復雜或靶向的終點，例如器官特異性效應。根據重復研究跨研究類型和物種的匯總方式，亞慢性和慢性重復劑量研究的任何靶器官效應的符合率范圍在38.5%到90%之間（每個器官），陽性發現的頻率也各不相同。

對于皮膚和眼部研究類型，觀察到最低和最高毒性類別的可重復性更高，這表明在毒性不存在或明顯時結果穩健。這一點在Draize兔眼刺激試驗中最為明顯，其中GHS未分類類別的重復性高達100%，而代表輕度刺激的GHS類別2B分類，其條件概率可重復性僅為16%。考慮到這些中等類別（例如，代表輕度至中度眼部刺激危害的GHS類別）的低可重復性，后續研究評估了合并這些類別的影響，以確定分組后重復性是否有所改善。當作者將眼部刺激的GHS類別2A和2B合并時，在兩個獨立進行的分析中，可重復性分別提高到71%或88%。兩項對皮膚致敏數據可重復性的評估與類別較少時重復性提高的趨勢相矛盾。一項考慮三種GHS分類的研究發現未分類結果的可重復性為52%，而另一項考慮五種分類的研究發現這些結果的可重復性為80%。差異可能基于使用的分析方法解釋：發現52%可重復性的研究基于任何有兩種或以上研究可用的化學品，并且所有類別都在歸一化方法中分配，研究權重相等。相比之下，發現80%可重復性的研究是針對有三種或以上研究且根據多數結果確定單一分類的化學品進行的。這些發現強調了方法、審查假設以及回顧性分析的整理方案的重要性。

定量可重復性

連續數值終點的可重復性使用不同的定量方法報告。回顧性考慮所有這些不同的報告指標尤為重要，因為大多數這些研究在相關TGs被接受之前，并未經過針對一系列化學品的可重復性分析。對眼部刺激、皮膚致敏、急性口服致死性、亞慢性/慢性重復劑量毒性和致癌性研究評估了定量終點之間的變異性（表4）。對于急性致死性，有大鼠和小鼠研究的變異性分析可用。當由同一作者評估時，使用任一種物種的研究顯示出相似程度的變異性。在可能的情況下，提供了CV，但由于缺乏報告數據，并非所有研究結果都能提供。其他描述數據離散度的定量指標包括SD和基于中位數絕對偏差（MAD）的不確定性范圍。一些變異性分析使用研究元數據構建模型，以量化重復研究的方差；這些研究報告了RMSE，作為預測值與真實值之間離散度的度量，以及R²，作為模型解釋數據方差的比例。當模型平均預測值與數據平均值相同時，RMSE等于殘差的SD。我們以與數據相同的單位報告了SD、不確定性范圍和RMSE，而R²則表示為模型或變量解釋的方差比例（表4）。

盡管這些不同的指標衡量的是數據或數據模型的不同統計觀察結果，但檢查這組統計指標揭示了多個高層次發現。眼部刺激的實驗室間和實驗室內CV值可用，CV值相當，范圍在40%到60%之間。單劑量急性研究顯示出效應水平值的離散度較小，這可能是研究設計（例如，在2000 mg/kg下的限度試驗）的結果，一項評估中不確定性范圍等于0.25 log₁₀-mg/kg，另一項評估中大多數研究的SD低于0.42 log₁₀-mg/kg。重復劑量研究顯示出更大的重復值離散度，通常接近±0.5 log₁₀-mg/kg/天，具體取決于離散度的量化方式。來自兩個獨立來源的致癌性研究的50%致瘤劑量之間的線性相關性顯示R²為0.63，表明在研究實施、整理和/或生物學觀察方面存在重大差異。總體而言，方差估計表明，重復研究數據在定量終點上存在大量離散。與致癌性相關的值的線性相關性以及通過多元線性回歸模型解釋的口服重復劑量研究毒性值中方差的比例表明，重復毒性值中可由研究元數據解釋的變異性存在一些上限，可能接近60%–70%。

對神經毒性研究一部分的行為終點可重復性的一項評估表明，運動活性研究的可重復性良好，在六個實驗室內測試的九種陽性對照化合物中，最低觀察效應水平的最大與最小比值范圍為一到六。DNT運動活性的可重復性針對陰性對照進行了報告，顯示CV范圍從20%到140%。盡管變異性很大，但這些都是值得注意的數據，因為陰性對照很少被報告。沒有其他研究可以提供此行為學方法或其他行為學方法的可重復性估計。2001年至2005年間在美國毒理學學會年會上發表的幾篇摘要（未經同行評審）表明，在驚嚇反應數據以及學習和記憶測試的評估中，報告不完整且陽性對照數據不完整，因此無法充分分析這些終點在實驗室內和實驗室間的相當大的變異性。其中一篇2004年對運動活性測量的評估指出，“需要進一步考慮如何減少變異性……”。DNT研究的定性回顧性分析報告稱，很少有實驗室（3/16）提供了可用的陽性對照數據，缺乏此類數據的研究因此無法為可重復性估計提供信息。然而，運動活性或驚嚇反應參數的陰性對照CV值可能為研究結果的可重復性提供一些指示。通常，此類讀數的CV值范圍在20%到超過100%之間，具體取決于實驗室、測試條件和動物年齡。這些高且可變的CV值表明，在一些實驗室和測試條件下可以識別對照組和劑量組之間的顯著差異，但在其他條件下則不能。相比之下，正如2001年美國毒理學學會年會報告中所報告的那樣，腦重量和腦形態計量學的CV被報道要低得多，分別為4%至12%和5%–30%。

討論

隨著近期生物醫學科學中變異性受到關注，以及向NAMs的轉變（NAMs在方法開發和驗證過程中正在生成全面的性能指標），現在比以往任何時候都更迫切需要匯編現有體內數據的變異性指標。關于科學實驗可重復性和變異性的挑戰已有很多論述，有多項分析特別量化了生物測定的可重復性。《自然》雜志對多個領域近1600名科學家的調查發現，超過70%的受訪者曾嘗試復制另一位科學家先前發表的研究但失敗了。對心理學研究的最新評估表明，這些研究的可重復性率為40%，而其他評估則表明癌癥生物學研究的可重復性率低至10%。這種所謂的“科學可重復性危機”（或根據本文使用的術語為“可復制性危機”）已引起公眾關注，并可能影響評估新方法時施加的審查。

我們的評述表明，體內毒理學指南研究的可重復性因研究類型、終點復雜性和分類方法的不同而有很大差異，具體取決于研究設計是采用二元或多類別結果還是連續終點。雖然優化檢測方法以實現低變異性是科學研究的基礎，但應注意變異性不應等同于缺乏有效性。生物學本身具有變異性，因此體內檢測方法的變異性并不一定表明檢測方法性能不佳。然而，必須將這些信息作為不確定性正確地整合到對研究數據和相關分析流程的任何解釋中。回顧性地量化檢測方法變異性可以為不同的使用情境建立可接受的水平，并幫助識別哪些變異性來源缺乏足夠的控制，以確保將最可靠的科學應用于毒理學安全評估。本文匯總的變異性評估強調了與檢測方法評估相關的一個特別重點：由于用作基準的體內測試并非完全可重復，我們不能期望NAMs比重復的體內研究具有更高的精密度。因此，表征傳統指南毒理學研究的變異性有助于為NAMs的使用建立基線預期。

區分變異性的來源

區分量化的變異性、變異性的來源以及關于變異性的不確定性非常重要。對于評估傳統的體內毒理學檢測方法，我們必須考慮研究實施對推導定量參考點（危害表征）和解釋框架（危害識別，例如分類）的可重復性的影響。同樣重要的是要注意，研究之間不同的組規模和統計功效可能解釋研究結果可重復性有限的原因。先前的調查表明，變異性可能源于與檢測方案或研究設計差異相關的眾多因素，包括動物品系、飲食和所用媒介等元素。例如，一項專注于遺傳毒性研究變異性的評述進行了多變量分析，以確定31種具有重復數據的化學品的OECD TGs 474和475的變異性驅動因素，發現品系和物種對變異性的貢獻最大。與口服途徑相比，注射給藥也已被證明會增加子宮增重測定中陽性反應的可能性，并且在使用相同媒介的研究中觀察到較低的變異性。諸如物種、劑量間距和物質純度等可定制的研究參數被發現占器官水平最低效應水平（LELs）總方差的一半以上。這在物種、品系和性別之間的基本生理和代謝差異方面尤為明顯。例如，大鼠生殖道中的腫瘤發生率，或雄性大鼠與雌性大鼠中甲狀腺腫瘤的存在。此外，一份報告指出，Draize兔眼刺激試驗中的終點選擇對變異性程度有顯著影響：當GHS類別2分類是基于無角膜損傷的結膜效應時，與基于其他驅動因素（如虹膜炎）的分類相比，觀察到更高的變異性。方案時間點，例如動物的年齡、暴露后的時間點或反應測量的時間，也可能顯著影響研究結果。我們必須承認TGs不是嚴格的標準操作程序，認識到研究設計中的一些靈活性是可接受的，并且在“類似指南”的研究實施范圍內。然而，即使變異性的來源可以解釋，數據變異性可能仍然是一種不確定性，因為很難理解哪種方案變體與人群最相關。

處理固有的生物變異性更為復雜，但可以認為源自四個一般因素：生理、遺傳、個體發育和暴露組。這些變異性來源已在某種程度上被量化，但需要進一步表征。例如，關于化學物毒代動力學，研究發現變異性估計通常（但不總是）落在某些化學物和生命階段的10倍不確定性因子可接受范圍內，但仍然存在許多不確定性。在動物研究對人類和生態系統結果的普遍性方面也存在不確定性，這源于物種、暴露和終點等方面的差異。動物模型和體外NAMs在模型輸出到人類的普遍性方面都面臨挑戰，沒有一種范式能完全代表人類存在的毒代動力學和毒效動力學過程。基于嚙齒類動物的研究必須通過一系列關于劑量測定、毒代動力學以及嚙齒類靶點對人類靶點的適用性假設，外推至人體等效劑量。基于人類的NAMs通常是基于分離的細胞或蛋白質的檢測方法，需要外推到人體，包括毒代動力學和代謝方面的考慮，例如組織特異性代謝。

解決數據缺口和未來工作的考量

在我們的回顧性分析中，值得注意的數據缺口包括生殖和發育毒性研究類型以及毒代動力學研究，以及這些研究的對照變異性，后者很少被報告。我們還注意到，匯總的不同分析并不都代表獨特的數據集，因為一些較大的可重復性評估挖掘了相同的源數據庫，導致主要數據表示存在重疊。然而，由于我們的目標不是直接比較每個變異性研究，我們認為在更全面地描述變異性時，一些冗余是可以接受的。更具體地說，即使從相同數據集報告的變異性估計也可能因應用的過濾步驟和統計方法而不同。其中一個例子是所使用的媒介：雖然一些分析為相同媒介提供了單獨的變異性估計，但大多數分析并未將媒介作為其分析中的一個因素。

這里匯總的結果可能并非哺乳動物毒理學所獨有，預計在生態毒理學研究中也是一致的。

熱點排行

新聞專題