標注質量與金標準選擇對深度學習AI模型早期齲損檢測準確性的影響
《Clinical Oral Investigations》:Accuracy of deep learning-based AI models for early caries lesion detection: the influence of annotation quality and reference choice
【字體:
大
中
小
】
時間:2025年12月05日
來源:Clinical Oral Investigations 3.1
編輯推薦:
本研究針對AI齲齒檢測模型評估中存在的參考標準偏差問題,通過系統比較不同標注策略(包括單一牙醫標注、聚合標注及基于顯微CT的金標準)對模型性能的影響。研究發現,雖然訓練標注策略對AI準確性無顯著影響,但評估時若采用與訓練數據匹配的標注標準會顯著高估模型性能(p<0.001)。該研究強調了建立獨立、臨床相關評估標準的重要性,為AI齲齒檢測工具的臨床轉化和監管審批提供了關鍵依據。
在口腔醫學領域,早期鄰面齲的準確檢測始終是一項重大挑戰。雖然咬翼片(bitewing radiographs)是診斷齲齒的重要工具,但對于早期齲損(RA1期,即齲壞僅限于釉質外1/2)的檢測靈敏度卻十分有限。這種檢測不足可能導致錯過最佳預防干預時機,影響患者的口腔健康結局。
近年來,基于人工智能(AI)的齲齒檢測工具逐漸應用于牙科實踐,一些研究甚至報道其準確性超過牙醫。然而,這些AI模型通常使用牙醫在X線片上的標注進行訓練,這種方法存在幾個固有缺陷:標注噪聲(annotation noise)、缺乏統一的標注協議、牙醫診斷靈敏度有限(特別是對早期病變),以及使用這些可能有問題的標注作為驗證AI模型的參考標準(reference standard),可能導致對模型性能的錯誤估計。
為了解決這些問題,Ricardo E. Gonzalez-Valenzuela等人開展了一項深入研究,旨在評估標注方法的選擇如何影響AI模型在早期齲損檢測中的準確性,并探討評估參考標準的選擇是否會帶來顯著的評估偏差。該研究近期發表于《Clinical Oral Investigations》雜志。
研究人員利用ACTA-DIRECT數據集(版本2),該數據集包含離體牙齒的X線片和顯微CT(micro-CT)掃描圖像,并提供了初始鄰面齲的多種標注。研究的關鍵創新在于引入了基于顯微CT的標注作為高質量參考標準,這種方法通過高分辨率成像提供更客觀、準確的齲損標簽,有望克服傳統牙醫標注的局限性。
研究團隊訓練了多個基于nnUNet架構的齲損分割模型,每種模型使用不同的標注數據進行訓練:(1)單個牙醫標注;(2)聚合標注策略(多數投票法、共識會議法、STAPLE算法);(3)基于顯微CT的標注。隨后,他們采用兩種方法評估模型的準確性:(1)與基于顯微CT的標注進行比較(微CT評估方法);(2)與模型訓練時使用的特定標注類型進行比較(訓練匹配標注評估方法)。
主要技術方法包括:使用擴展版的ACTA-DIRECT數據集(含2270張圖像),采用五種角度(-10°、-5°、0°、+5°、+10°)拍攝的X線片,聚焦牙冠鄰面區域;基于nnUNet架構定制化開發齲損分割模型,并進行5折交叉驗證;使用顯微CT投影標注作為金標準,并采用多水平邏輯回歸分析進行統計比較。
當以顯微CT標注為參考標準時,AI模型的表現顯示(表1),基于共識標注訓練的模型獲得了最高的靈敏度(0.33)和平衡準確度(0.63)。所有模型的特異度均較高,其中基于專家2標注訓練的模型特異度最高(0.97)。當采用訓練匹配標注評估時(表2),模型性能普遍提高,基于共識標注訓練的模型靈敏度達到0.44,平衡準確度為0.69。統計分析表明,與微CT參考標準相比,使用訓練匹配參考標準時,所有模型的診斷準確性均顯著更高(p < 0.001),優勢比(Odds Ratio)在2.26至4.19之間。
表3展示了僅針對正確識別的病變(真陽性,TP)計算的Dice相似系數(Dice Similarity Coefficient, DSC)。在微CT評估方法下,基于專家1標注訓練的模型在23個正確識別的病變中獲得了最高的DSC(0.64)。在訓練匹配標注評估方法下,基于共識標注訓練的模型在44個正確識別的病變中獲得了最高的DSC(0.74)。
圖3顯示了以顯微CT標注為參考標準時各AI模型的受試者工作特征(Receiver Operating Characteristic, ROC)曲線。基于顯微CT標注和共識標注訓練的模型獲得了最高的曲線下面積(Area Under the Curve, AUC)值(0.67)。圖4顯示了訓練匹配標注評估方法下的ROC曲線,基于專家3標注訓練的模型AUC值最高(0.81),基于共識標注的模型次之(0.77)。
如表4所示,AI模型對較深的早期齲損(RA2-RA3)的靈敏度高于對非常早期病變(RA1)的靈敏度,這反映了檢測初始病變的難度更大。特異度在各分期和標注類型中均保持較高水平(約0.92至0.98)。AI模型檢測RA1期齲損的AUC值范圍為0.49至0.56,而檢測RA2-RA3期齲損的AUC值范圍為0.66至0.77,表明模型性能(以AUC衡量)在測試方法內是分期依賴性的。
對基于不同標注方法訓練的AI模型之間進行了21對比較的多水平邏輯回歸分析。經過Bonferroni校正后(α=0.002),所有配對比較均未達到統計學顯著性。最低的p值出現在比較基于共識標注與專家1標注訓練的模型之間(p=0.005)。
對于所有AI模型,使用兩種參考標準(顯微CT標注和訓練匹配標注)評估時,其一致性存在顯著差異。所有比較的p值均<0.001。
盡管基于顯微CT的標注為體外評估提供了更精確的參考,但本研究并未發現使用其訓練AI模型能帶來顯著更優的診斷性能。評估結果顯示,當模型使用與其訓練數據同類型的標注進行評估時,診斷準確性更高,而不是使用高質量的參考數據。這些發現強調了測量的診斷準確性會因所應用的參考標準而有很大差異。
關于第一個研究問題(RQ1),在Bonferroni校正后,未發現不同訓練標注方法訓練的模型在準確性上存在統計學顯著差異。然而,性能指標顯示出有意義的趨勢,增加樣本量可能有助于更明確地評估RQ1。關于第二個研究問題(RQ2),結果一致且顯著地表明,評估參考標準的選擇對診斷準確性的評估有重大影響。所有模型在使用訓練匹配參考標準評估時,其一致性均顯著高于使用顯微CT參考標準。這一發現強調了在當前可用參考標準下報告的診斷性能可能存在誤導性。
模型性能的分層分析顯示,AI模型對RA2-RA3期病變的靈敏度高于RA1期,這與X線片對早期鄰面齲顯現能力的局限性一致。從臨床角度看,在RA1期檢測齲損對于實施預防性干預至關重要,但這對于人類觀察者和AI模型來說仍然是一項挑戰。
與先前研究的比較發現,本研究的模型對早期病變(RA1)的靈敏度低于某些文獻報道,這很可能是因為本研究使用了更嚴格的、基于顯微CT的參考標準進行評估。這凸顯了AI模型在檢測早期齲損方面面臨的持續挑戰,以及使用高質量參考標準進行準確驗證的重要性。
本研究結論指出,參考標準對AI模型評估具有強烈影響。雖然訓練期間的標注策略并未顯著影響AI齲損分割的準確性,但當模型針對不同參考標準進行測試時,評估存在偏差。這些結果強調了選擇適當的參考標注對于確保早期齲損檢測中AI性能評估可靠性的重要性。該研究為未來開發更可靠、更公正的AI齲齒診斷工具提供了重要的方法論參考和實踐指導。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號