《KNEE SURGERY, SPORTS TRAUMATOLOGY, ARTHROSCOPY》:Human medical documentation significantly outperforms ChatGPT-4o in critical clinical dimensions: A blinded comparative assessment in paediatric orthopaedics
摘要
目的
本研究旨在評估在兒科骨科實踐環(huán)境中,由ChatGPT生成的醫(yī)療史摘要與人類創(chuàng)建的文檔相比的質(zhì)量。
方法
研究采用了一項前瞻性、隨機、盲法比較設(shè)計,納入了20名連續(xù)就診的、主訴為膝蓋問題的兒科患者。醫(yī)療咨詢的錄音被轉(zhuǎn)錄,并使用標(biāo)準(zhǔn)化的提示詞(prompt)提交給ChatGPT-4o進(jìn)行處理。三位獨立的骨科專家使用八個質(zhì)量評估標(biāo)準(zhǔn)(包括時間一致性、空間一致性、事故描述、癥狀準(zhǔn)確性、癥狀特異性、既往干預(yù)措施、寫作風(fēng)格和總體印象),對人工和AI生成的摘要進(jìn)行了評估。每個標(biāo)準(zhǔn)均采用6分李克特量表(Likert scale)進(jìn)行評分。
結(jié)果
人類創(chuàng)建的摘要總體評分顯著更高(5.2±0.8),相比之下,ChatGPT生成的摘要評分為4.5±0.8,兩者差異具有統(tǒng)計學(xué)意義(p<0.001,效應(yīng)量Cohen's d=0.80,屬于大效應(yīng)量)。在進(jìn)行多重比較的Bonferroni校正后,確認(rèn)了在八個標(biāo)準(zhǔn)中有四個存在支持人類文檔的統(tǒng)計學(xué)顯著差異:時間一致性、空間一致性、事故描述和總體印象。在寫作風(fēng)格和既往干預(yù)措施記錄方面未觀察到顯著差異。評估者間可靠性為中等水平(組內(nèi)相關(guān)系數(shù)ICC=0.64)。ChatGPT表現(xiàn)出頻繁的時間不一致性(在60次評估中占14次,23%)以及相關(guān)事故細(xì)節(jié)的遺漏(在60次評估中占21次,35%)。
結(jié)論
盡管AI生成的摘要在風(fēng)格質(zhì)量上表現(xiàn)尚可,但人類文檔在關(guān)鍵的臨床維度上,包括時間一致性和復(fù)雜骨科表現(xiàn)的準(zhǔn)確性方面,顯著優(yōu)于ChatGPT。當(dāng)前的大型語言模型在缺乏嚴(yán)格監(jiān)督的情況下,尚未準(zhǔn)備好取代兒科骨科實踐中的人類醫(yī)療文檔記錄。研究結(jié)果支持實施AI輔助而非替代人類臨床判斷的混合工作流程。
水平:I級
引言
醫(yī)療文檔記錄是骨科醫(yī)師面臨的一項重大行政負(fù)擔(dān),醫(yī)生大約花費24%的工作時間處理行政事務(wù)。大型語言模型(LLM)如ChatGPT,已成為減輕此負(fù)擔(dān)的潛在解決方案。然而,近期評估結(jié)果喜憂參半。Williams等人報告稱,GPT-4生成的急診科摘要中,42%存在幻覺,47%存在臨床相關(guān)遺漏。而Butler等人則證明AI可以提高放射學(xué)報告的可讀性。?akmur等人發(fā)現(xiàn)Gemini 1.5 Flash在半月板撕裂患者教育方面能提供最可靠的內(nèi)容。
兒科骨科帶來獨特的挑戰(zhàn):病史涉及多方信息提供者、發(fā)育考量以及生長相關(guān)因素。基于轉(zhuǎn)錄的AI系統(tǒng)的一個根本局限在于,其無法捕捉經(jīng)驗豐富的醫(yī)師在日常評估中納入的非語言溝通信號。
盡管人們對AI支持的文檔記錄興趣日益增長,但在骨科文獻(xiàn)中仍缺乏系統(tǒng)的質(zhì)量比較。這一空白具有臨床相關(guān)性,因為文檔記錄錯誤可能影響治療決策和法醫(yī)學(xué)考量。
本研究旨在兒科骨科實踐中,比較ChatGPT-4o生成與人類創(chuàng)建的醫(yī)療史摘要在臨床相關(guān)質(zhì)量標(biāo)準(zhǔn)方面的差異。這些標(biāo)準(zhǔn)包括時間一致性、空間一致性、事故描述精確性、癥狀準(zhǔn)確性與特異性、既往干預(yù)措施記錄、寫作風(fēng)格以及總體臨床效用。
假設(shè)人類創(chuàng)建的病史摘要在時間一致性、復(fù)雜骨科呈現(xiàn)準(zhǔn)確性等關(guān)鍵臨床維度上表現(xiàn)出更高的質(zhì)量,而AI系統(tǒng)可能在風(fēng)格方面表現(xiàn)相當(dāng)。
材料與方法
研究設(shè)計與背景
這項前瞻性、隨機、盲法比較研究于2025年1月至3月在一家專業(yè)兒科骨科診所進(jìn)行。研究方案獲得批準(zhǔn),并根據(jù)赫爾辛基宣言進(jìn)行。所有患者及其法定監(jiān)護(hù)人均簽署了書面知情同意書。
樣本量計算
根據(jù)預(yù)期效應(yīng)量0.8、α=0.05、功效=0.80進(jìn)行先驗樣本量計算。使用G*Power 3.1軟件計算,檢測統(tǒng)計學(xué)顯著差異至少需要15對觀察。最終納入20名患者以考慮潛在數(shù)據(jù)丟失并確保足夠功效。
參與者
研究連續(xù)納入了20名主訴膝蓋問題的患者。患者平均年齡為14.2±2.3歲,包括11名男性和9名女性。納入標(biāo)準(zhǔn)包括首次就診、年齡在10-18歲之間、主訴與膝蓋相關(guān)、同意錄音以及有完整病史。所有醫(yī)療史均由同一位經(jīng)驗豐富的兒科骨科醫(yī)師采集,以最大程度減少采集技術(shù)的變異性。
數(shù)據(jù)收集與處理
錄音與轉(zhuǎn)錄
所有咨詢對話均使用安全的、符合HIPAA標(biāo)準(zhǔn)的設(shè)備進(jìn)行數(shù)字錄音。平均咨詢時長為15±5分鐘。對話使用瑞士德語進(jìn)行。錄音使用MacWhisper Transcription Pro軟件離線轉(zhuǎn)錄,以確保數(shù)據(jù)隱私。所有患者身份信息均在匿名化過程中被系統(tǒng)移除。僅完全匿名的文本被提交給ChatGPT-4o以生成摘要。
摘要生成
人類生成摘要
主治骨科醫(yī)師在每次咨詢后立即創(chuàng)建摘要,遵循標(biāo)準(zhǔn)臨床聽寫實踐,且無法訪問音頻轉(zhuǎn)錄文本。醫(yī)師遵循了與AI提示詞相似但不完全相同的結(jié)構(gòu)。
AI生成摘要
匿名轉(zhuǎn)錄文本通過ChatGPT-4o進(jìn)行處理,使用了標(biāo)準(zhǔn)化的提示詞,要求其根據(jù)咨詢記錄創(chuàng)建詳細(xì)的醫(yī)療史,包括患者一般信息、主訴、癥狀時間線、相關(guān)生活習(xí)慣、可能誘因以及已采取的措施及其效果。當(dāng)提供德文轉(zhuǎn)錄文本時,模型始終生成標(biāo)準(zhǔn)德文摘要。
評估流程
評估小組
由三位具有豐富臨床經(jīng)驗的獨立骨科專家擔(dān)任評估者。所有評估者均接受了關(guān)于評估標(biāo)準(zhǔn)和評分方法的標(biāo)準(zhǔn)化培訓(xùn)。
盲法與隨機化
所有摘要被隨機化和匿名化以供評估。評估者在整個評估過程中對每份摘要的來源不知情。
評估方法
對于每個病例,評估者首先聽取原始錄音以建立“金標(biāo)準(zhǔn)”,然后評估對應(yīng)的兩份摘要。研究評估了從原始咨詢到書面摘要的信息傳遞的準(zhǔn)確性和完整性。
評估標(biāo)準(zhǔn)
使用6分李克特量表(1=非常差,6=優(yōu)秀)評估八個質(zhì)量維度,包括:1) 時間一致性;2) 空間一致性;3) 事故描述;4) 癥狀準(zhǔn)確性;5) 癥狀特異性;6) 既往干預(yù)措施;7) 寫作風(fēng)格;8) 總體印象。
統(tǒng)計分析
使用JMP 18.0軟件進(jìn)行統(tǒng)計分析。使用Shapiro-Wilk檢驗評估數(shù)據(jù)正態(tài)性。由于數(shù)據(jù)不服從正態(tài)分布,使用配對Wilcoxon符號秩檢驗進(jìn)行所有比較,并應(yīng)用Bonferroni校正進(jìn)行多重比較。評估者間可靠性通過組內(nèi)相關(guān)系數(shù)(ICC)計算。效應(yīng)量通過Cohen's d計算。統(tǒng)計顯著性設(shè)定為α=0.05。
結(jié)果
總體質(zhì)量評估
人類生成的摘要獲得了顯著更高的總體評分,平均分為5.2±0.8,而AI生成的摘要為4.5±0.8,平均差異為0.7分,效應(yīng)量(Cohen's d=0.8)表明兩者之間存在大的實際差異。
標(biāo)準(zhǔn)特異性分析
在進(jìn)行多重比較的Bonferroni校正后,人類生成的摘要在八個評估標(biāo)準(zhǔn)中的四個上表現(xiàn)出統(tǒng)計學(xué)顯著優(yōu)勢。最大的性能差距出現(xiàn)在事故描述、空間一致性和時間一致性方面。在寫作風(fēng)格和既往干預(yù)措施記錄方面未發(fā)現(xiàn)顯著差異,兩種方法在該標(biāo)準(zhǔn)上得分均較低。
評估者間可靠性
三位評估者在總體印象評分上的評估者間可靠性為中等水平(ICC=0.64)。個體標(biāo)準(zhǔn)的可靠性各不相同。盡管三位評估者在評分嚴(yán)格程度上存在差異,但都獨立地顯示出傾向于人類生成摘要的一致方向性。
錯誤模式分析
對評分較差的ChatGPT摘要進(jìn)行定性分析發(fā)現(xiàn),時間不一致性、相關(guān)事故細(xì)節(jié)遺漏、不準(zhǔn)確的癥狀定位以及幻覺(生成本未提及的信息)是主要的錯誤類型。
討論
本研究最重要的發(fā)現(xiàn)是,人類生成的醫(yī)療史摘要在關(guān)鍵的臨床維度上顯著優(yōu)于ChatGPT-4o,包括時間一致性、空間一致性和事故描述準(zhǔn)確性,而在寫作風(fēng)格方面表現(xiàn)相當(dāng)。
這些發(fā)現(xiàn)與近期在臨床環(huán)境中對LLM的評估結(jié)果一致。觀察到的性能差距在需要語境解釋和復(fù)雜骨科表現(xiàn)綜合處理的領(lǐng)域尤為明顯,表明人類臨床醫(yī)生在識別隱含關(guān)系和整合分散臨床信息方面具有更優(yōu)越的能力。
未來研究的一個重要考量是檢索增強生成(RAG)技術(shù)在提高AI文檔質(zhì)量方面的潛在作用。RAG允許LLM訪問經(jīng)過整理的、領(lǐng)域特定的知識庫,而不僅僅是依賴通用訓(xùn)練數(shù)據(jù),這可能減少幻覺并提高準(zhǔn)確性。
研究結(jié)果對考慮實施AI的骨科醫(yī)生具有重要意義。觀察到的時間和空間一致性缺陷可能在骨科實踐中產(chǎn)生重大的臨床后果。對事故細(xì)節(jié)或癥狀定位的錯誤描述可能導(dǎo)致不適當(dāng)?shù)脑\斷檢查或治療決策。
與其取代人類文檔,AI系統(tǒng)可能在混合工作流程中作為起草工具最具價值。ChatGPT在寫作風(fēng)格上的可比表現(xiàn)表明其在生成初步草案方面具有潛在用途,但必須在最終定稿前經(jīng)過醫(yī)師的強制審查和編輯。
兒科骨科提出了獨特的文檔記錄挑戰(zhàn),包括發(fā)育考量和復(fù)雜的家庭動態(tài)。捕捉細(xì)微臨床差異(例如父母的擔(dān)憂或兒童行為模式)的能力仍然是當(dāng)前AI系統(tǒng)無法復(fù)制的人類獨有能力。
本研究確定的一個關(guān)鍵限制是,在基于轉(zhuǎn)錄的AI處理過程中,非語言溝通信息的丟失。經(jīng)驗豐富的骨科醫(yī)生在臨床評估中通常會觀察并納入非語言線索,包括在咨詢過程中表現(xiàn)的疼痛行為、可提供診斷洞察的親子互動、焦慮的細(xì)微跡象以及步態(tài)異常。這種具有臨床意義的語境信息在僅基于口頭轉(zhuǎn)錄文本生成的AI摘要中是缺失的。這種局限表明,未來的醫(yī)療AI系統(tǒng)將需要采用結(jié)合音頻、視頻甚至生物識別數(shù)據(jù)的多模態(tài)方法,以接近人類水平的臨床文檔記錄質(zhì)量。
本研究中觀察到的中等評估者間可靠性反映了人類評估過程的一個基本特征。盡管三位評估者的評估嚴(yán)格程度不同,但都表現(xiàn)出對人類生成摘要的一致傾向性偏好。這種趨勢上的一致性,結(jié)合絕對評分上的變異性,實際上加強了主要發(fā)現(xiàn)的穩(wěn)健性。
除了文檔質(zhì)量之外,本研究還引發(fā)了對AI潛在影響基礎(chǔ)骨科推理過程的重大關(guān)切。對于住院醫(yī)生和骨科實習(xí)生而言,自動化可能導(dǎo)致認(rèn)知能力退化。如果學(xué)員過度依賴AI生成的文檔和闡釋,發(fā)展基本骨科能力如空間推理、生物力學(xué)分析和模式識別的過程可能會受到損害。
局限性
需要承認(rèn)幾個局限性。涉及20名患者的單中心設(shè)計限制了結(jié)果在其他骨科實踐和患者群體中的普適性。評估者間可靠性為中等水平,這反映了質(zhì)量評估固有的主觀性,盡管使用了標(biāo)準(zhǔn)化的評估標(biāo)準(zhǔn)。盡管實施了盲法,但完全掩蓋摘要的作者身份可能具有挑戰(zhàn)性,因為AI生成的文本可能展現(xiàn)出可識別的風(fēng)格模式,這構(gòu)成了潛在的檢測偏倚來源。該研究僅關(guān)注兒科患者的膝蓋主訴,可能限制了其在其他骨科疾病或成年人群中的適用性。此外,AI處理的純文本性質(zhì)本質(zhì)上排除了經(jīng)驗豐富的骨科醫(yī)生常規(guī)納入其臨床評估的非語言溝通信號。
在轉(zhuǎn)錄過程中將瑞士德語方言自動轉(zhuǎn)換為標(biāo)準(zhǔn)德語可能導(dǎo)致信息的細(xì)微丟失,從而影響兩種摘要類型的源材料質(zhì)量。本研究使用的ChatGPT-4o模型代表了2025年初的技術(shù),更新的模型可能表現(xiàn)出改進(jìn)的性能。所使用的通用提示詞并未針對骨科文檔記錄進(jìn)行優(yōu)化,領(lǐng)域特定的提示工程可能提升AI性能。最后,本研究評估了文檔質(zhì)量,但未評估下游臨床結(jié)果、成本效益或?qū)︶t(yī)師工作流程的長期影響。
臨床相關(guān)性
對于日常臨床工作,這些發(fā)現(xiàn)表明,AI輔助的文檔記錄應(yīng)通過混合工作流程實施,并強制要求醫(yī)師監(jiān)督,而非自主AI記錄。在審閱時,醫(yī)師應(yīng)特別核實時間順序、空間描述和損傷機制,因為這些是AI錯誤率最高的領(lǐng)域。機構(gòu)應(yīng)實施質(zhì)量審計和識別AI錯誤模式的培訓(xùn)。復(fù)雜的兒科表現(xiàn)應(yīng)繼續(xù)依賴傳統(tǒng)的醫(yī)師記錄,直到AI技術(shù)成熟。
結(jié)論
在兒科骨科實踐中,人類生成的醫(yī)療史摘要在多個質(zhì)量維度上顯著優(yōu)于ChatGPT-4o。盡管AI在風(fēng)格能力上表現(xiàn)尚可,但在時間一致性、空間準(zhǔn)確性和臨床細(xì)節(jié)捕捉方面的顯著缺陷表明,當(dāng)前的大型語言模型尚未準(zhǔn)備好用于骨科文檔記錄工作流程的無監(jiān)督實施。
研究結(jié)果支持對AI整合采取謹(jǐn)慎態(tài)度,強調(diào)應(yīng)采用AI輔助而非替代人類臨床判斷的混合工作流程。對于考慮采用AI的骨科醫(yī)生而言,強大的質(zhì)量保證機制和強制性的醫(yī)師監(jiān)督仍然至關(guān)重要。
未來的研究應(yīng)調(diào)查檢索增強生成(RAG)系統(tǒng)、結(jié)合視覺和音頻數(shù)據(jù)的多模態(tài)AI方法以及專業(yè)特定微調(diào)是否能解決所觀察到的局限性。同時,需要進(jìn)行縱向研究來檢驗AI輔助文檔記錄對學(xué)員發(fā)展和臨床結(jié)果的影響。