《Computers and Education: Artificial Intelligence》:Predicting student performance: A comprehensive review of machine learning, deep learning, and explainable AI approaches
編輯推薦:
這篇系統綜述(遵循PRISMA指南)聚焦于應用機器學習(ML)、深度學習(DL)和可解釋人工智能(XAI)于教育數據挖掘(EDM)領域,旨在實現學生表現的早期預測。它系統分析了72項研究,探討了常用數據集與特征、主流ML/DL算法及其評估指標,并特別強調了模型可解釋性(XAI)對于連接復雜算法與教學實踐、支持循證教學與自適應學習、促進教育公平決策的關鍵作用。
預測學生表現:技術融合下的教育洞察與變革
在信息技術飛速發展的今天,教育領域正經歷著深刻的變革。教育機構積累了海量的學生數據,如何利用這些數據洞察學習規律、預測學術表現,從而實施精準干預、提升教育成果,已成為一個極具前景的研究方向。本文綜述系統回顧了機器學習(ML)、深度學習(DL)和可解釋人工智能(XAI)在學生表現預測領域的應用現狀與發展趨勢。
引言
近年來,機器學習與深度學習在教育數據挖掘中的應用正在革新教育領域。研究者們尤其關注于早期預測學生表現,這些早期預測能顯著改善學生的學習體驗,并允許教育者及利益相關方規劃及時的干預措施。準確的預測有助于教育者定制干預方案,提供針對性支持,從而提升教育成果。預測學生表現涉及分析人口統計學、個人、學術、行為、心理和社會經濟等多維度因素。盡管已有一些綜述分別探討了ML技術、DL方法、可解釋模型及跨領域可解釋性方法,但本綜述系統地審視了ML、DL和XAI如何共同作用,以增強預測的準確性、可解釋性及其教育價值。
方法論
本綜述嚴格遵循系統綜述和薈萃分析首選報告項目指南(PRISMA)。研究過程分為四個階段:規劃、檢索、篩選以及信息提取與綜合。研究明確了四個核心問題:
- 1.
預測學生表現常用的數據集類型及其特征是什么?
- 2.
預測學生表現使用了哪些特征和標簽?
- 3.
教育研究中最常使用哪些機器學習和深度學習方法來預測學生表現?選擇它們的原因是什么?
- 4.
在所研究的文獻中,如何運用可解釋性與可解釋性方法?
文獻檢索在ScienceDirect、IEEE Xplore和Scopus數據庫中進行,時間跨度為2017年至2024年,使用了結合關鍵詞與布爾邏輯的檢索策略。經過嚴格的篩選流程,最終有72篇研究被納入本系統綜述。
監督機器學習
學生表現預測中最常用的是監督機器學習模型。根據學習機制,這些模型可分為以下幾類:
線性模型
線性模型在因變量與一個或多個自變量之間建立線性關系,因其簡單性、可解釋性和計算效率而被廣泛使用。
- •
多元線性回歸:用于預測連續結果,如學生的最終成績。
- •
邏輯回歸:用于二元分類任務,例如預測學生通過或失敗。
基于樹的模型
這類算法使用一系列決策規則進行預測或分類,以樹結構表示。
- •
決策樹:是最基本的樹模型,使用分層決策過程,但若未經適當修剪容易過擬合。
- •
隨機森林:一種集成方法,通過構建多棵決策樹并結合其預測結果(如多數投票或平均)來降低過擬合風險。
- •
梯度提升機:另一種集成技術,通過順序構建決策樹,每棵新樹糾正前序樹的殘差錯誤,從而逐步提升模型精度。
支持向量機
支持向量機適用于分類、回歸和異常值檢測。其核心思想是找到一個能將不同類別數據點最大間隔分開的超平面。支持向量回歸是其變體,用于預測連續數值,如學生成績。
貝葉斯模型
樸素貝葉斯分類器是最常用的貝葉斯模型,基于貝葉斯定理進行概率分類,并假設特征之間相互獨立。
基于實例的模型
k-最近鄰算法是典型的基于實例的模型,通過比較新實例與訓練集中k個最相似實例的距離來進行分類或回歸預測。
神經網絡
神經網絡能夠處理大量結構化和非結構化數據,其結構受到人腦啟發。
- •
前饋神經網絡:信息單向傳播,無循環連接。
- •
多層感知機:最傳統的前饋神經網絡形式,層間全連接。
- •
徑向基函數網絡:隱藏層使用徑向基函數作為激活函數。
- •
卷積神經網絡:專門用于處理網格狀拓撲數據(如圖像),通過卷積層、池化層和全連接層提取特征。
- •
循環神經網絡:專為序列數據設計,具有循環連接,可以記憶先前輸入的信息。
- •
長短期記憶網絡:一種RNN變體,旨在解決長期依賴問題,能夠記憶更長時間跨度的信息。
- •
混合與專用網絡:如圖神經網絡,用于處理具有復雜關聯關系的圖結構數據。
模型評估指標
為了評估模型有效性,研究采用了多種指標。分類任務最常用的指標源于混淆矩陣,包括準確率、精確率、召回率和F1-分數。回歸任務則常用確定系數(R2)、平均絕對誤差和均方根誤差等指標。
結果與討論
檢索結果與文章篩選
初始檢索獲得281條記錄,經過去重、標題摘要篩選和全文評估后,最終72篇文章被納入分析。從年度發表數量來看,該領域是一個相對新興且快速發展的研究方向。在明確教育階段的研究中,關注大學生的研究占比顯著高于關注大學前教育(中小學)的研究,這很可能與大學數據庫更易于作為開源數據獲取有關。
分析顯示,傳統ML模型的使用頻率大約是DL模型的3倍,這反映了ML在教育數據挖掘中更早、更廣泛的采用,而DL方法則是近年才日益突出。
數據集來源與特征
數據集的質里對于構建準確可靠的模型至關重要。
- •
公開數據集:開放大學學習分析數據集(OULAD)和加州大學歐文分校機器學習庫(UCIMLR)數據集是使用最廣泛的公開數據源。OULAD包含學生注冊、評估、虛擬學習環境互動和人口統計信息;UCIMLR數據集則包含學生成績、人口統計和社會學校相關屬性。
- •
專有數據集:許多研究也使用教育機構、政府機構內部收集的專有數據集,這些數據通常更詳細,但可及性和可重復性較低。
數據集的規模和結構差異很大。大部分數據集的實例數少于4000條。數據規模對模型性能有顯著影響:小數據集易于處理但可能導致過擬合和洞察有限;大數據集能提供更全面的模式,但需要更多的計算資源。數據集內容特征可大致分為時態特征(如隨時間變化的成績、學習平臺使用日志)和非時態特征(如人口統計學、學術背景、社會經濟指標等)。時態學術和行為屬性是目前最主流的特征類型,反映了對動態學習行為模式的日益重視。
數據預處理
數據預處理是準備原始數據用于模型訓練的關鍵步驟,包括數據清洗、缺失值處理、訓練集/測試集劃分、特征縮放等。在處理分類任務中常見的類別不平衡問題時,研究采用了從數據層面的重采樣到算法層面的損失調整等多種策略,以確保模型能有效識別處于風險中的少數類學生。特征選擇和特征工程對于提升模型性能至關重要。在ML中,常用信息增益、SHAP值、遺傳算法等方法進行特征篩選和構造;在DL中,雖然模型能自動學習特征,但通過主成分分析、二元粒子群優化等方法進行顯式特征選擇仍能帶來性能提升。
模型性能分析
預測任務(分類或回歸)從根本上決定了模型的選擇、評估和可解釋性。
- •
分類任務:主要預測類別型結果。從納入研究的高性能模型來看,不同模型在各項指標上均有優異表現。例如,邏輯回歸的F1-分數可達88%;決策樹的準確率可達99.9%;隨機森林的精確率可達98.9%;梯度提升機的準確率可達96.7%;支持向量機的準確率可達95.8%;多層感知機的準確率可達93.75%;而結合了特征選擇的混合模型(如BPSO-CNN)準確率可達95.6%。這些結果說明,沒有一種模型在所有場景下均最優,模型選擇需考慮具體任務和數據特性。
- •
回歸任務:預測連續型結果。由于預測尺度與目標變量不同,各研究間的回歸結果無法直接比較。但研究普遍使用R2、MAE、RMSE等指標進行評估。例如,有研究使用k-NN進行成績預測,其R2可達0.936;使用隨機森林預測GPA,R2可達0.78。
可解釋人工智能的作用
許多高性能的預測模型(尤其是復雜的DL模型和集成模型)如同“黑箱”,難以理解其內部決策邏輯。XAI的目標就是打開這些黑箱,使模型的預測過程對人類而言透明、可理解。在教育領域,這至關重要,因為教育者需要知道模型是基于哪些因素判斷學生可能失敗,才能據此制定有效的、個性化的干預措施,而不僅僅是得到一個“高風險”的標簽。可解釋性有助于建立對模型的信任,確保預測是公平且無偏見的,并能提供具有教學意義的洞見,從而真正將預測能力轉化為教育行動力。
綜述強調了如何將預測性AI與XAI結合,以彌合復雜算法與教育實踐之間的鴻溝,支持循證教學、自適應學習和更公平的教育決策。盡管應用先進預測技術的研究日益增多,但明確將這些預測方法與教育創新聯系起來的研究仍然有限。未來研究需要更多地關注如何將預測模型的輸出有效整合到實際教學干預和制度決策中,最大化其教育價值。