《Connection Science》:A hybrid approach for course recommendation: leveraging collaborative filtering and knowledge graphs
編輯推薦:
本文是一篇針對課程推薦系統的綜述研究,探討了在正式與非正式教育環境中,學習者面臨課程選擇挑戰的現狀。作者提出了一種創新的混合式課程推薦系統,該系統通過結合協同過濾(Collaborative Filtering, CF)與知識圖譜(Knowledge Graph, KG)技術,旨在為學生提供個性化且具有可解釋性的課程建議。文章指出,傳統推薦方法常因缺乏透明度而導致推薦結果不理想,而本研究所提出的名為KG-BeMF的系統,則利用伯努利矩陣分解(Bernoulli Matrix Factorisation, BeMF)模型進行課程狀態預測,并借助知識圖譜信息進行過濾與解釋,從而有效應對數據稀疏和冷啟動問題,提升推薦的準確性與可信度。通過對包含3.66萬條學生記錄的真實數據集進行實驗評估,結果表明該系統在精確率(Precision)、召回率(Recall)和F1-分數(F1-Score)等指標上,相比狄利克雷矩陣分解(Dirichlet Matrix Factorisation, DirMF)、樸素貝葉斯協同過濾(Na?ve Bayes Collaborative Filtering, NBCF)和神經協同過濾(Neural Collaborative Filtering, NCF)等基準模型表現出更優的性能。最終,文章強調該混合方法不僅能生成高質量推薦,還能通過提供解釋增強系統透明度,改善學生的學習決策體驗。
引言
在教育體系中,學習者常常面臨如何選擇符合自身學術目標或培訓需求的合適課程的挑戰。無論是正式的大學本科課程預選,還是海量的在線大規模開放在線課程(MOOC)平臺如Coursera、edX等,信息過載問題都使得學生難以做出最佳決策。推薦系統(Recommender System, RS)作為一種有效工具,已被廣泛應用于電子商務、醫療健康等領域,但在教育領域的應用尚面臨透明度和解釋性不足的痛點。傳統的協同過濾方法雖然能提供良好的推薦結果,卻往往難以解釋推薦背后的原因。因此,本文致力于提出一種結合協同過濾與知識圖譜的混合課程推薦方法,旨在同時實現推薦的準確性、個性化和可解釋性。
相關工作
課程推薦系統的研究自2005年起在學術數據庫中逐漸增多,并于2024年達到年度研究產出高峰。相關研究采用了多種方法,包括基于協同過濾、內容過濾、深度學習以及語義網絡技術如本體和知識圖譜的模型。其中,協同過濾方法因其利用用戶歷史偏好數據而表現優異,但常受限于數據稀疏和冷啟動問題。為克服這些挑戰,研究者們探索了結合知識圖譜的方法,以豐富的語義信息來增強用戶與課程的表示。例如,利用知識圖譜可以緩解新課程或新用戶的冷啟動問題,并提升推薦的準確性。矩陣分解方法,作為協同過濾的一種重要技術,也通過識別用戶-項目交互中的隱藏模式,在個性化推薦中展現了出色性能,其中伯努利矩陣分解模型因其能同時提供預測值和可靠性值而備受關注。在可解釋推薦方面,研究重點在于生成能讓用戶理解推薦邏輯的說明,例如結合貝葉斯變分網絡或利用大型語言模型進行解釋生成。
基于知識圖譜增強的可解釋推薦方法
本研究提出了一種名為KG-BeMF的混合式可解釋課程推薦方法。該方法旨在幫助學生在正式教育環境下,根據其歷史選課記錄和學位路徑的約束條件,做出更明智的選課決策。系統流程主要包含四個階段:數據準備、協同過濾預測、基于知識圖譜的過濾,以及可解釋推薦的生成。
在第一階段,系統構建學生檔案,記錄其已通過、不及格或退出的課程,以及當前學期應修的課程。同時,創建一個描述學位課程結構的語義知識圖譜,其中定義了課程、學生、先修條件等實體及其關系。接著,構建用戶-課程評分矩陣,其中評分值代表課程的三種狀態:1(通過)、2(不及格/退出)、3(待修課程)。在第二階段,采用伯努利矩陣分解模型處理該評分矩陣,預測每個學生對每門課程可能的狀態概率,并生成一個候選課程列表。
第三階段是知識圖譜過濾的核心環節。系統利用SPARQL查詢語言,設計了一系列查詢模板來驗證候選課程是否符合教育機構的業務規則和學位要求。例如,過濾掉那些先修課程尚未被學生通過的高級課程,或者移除學生已經通過的課程。完成所有約束檢查后,系統根據課程級別、學分、類型等特征對剩余課程進行排序,形成最終的推薦列表。
最后,在第四階段,系統為每門被推薦的課程生成解釋性輸出。這些解釋整合了從知識圖譜中提取的元數據,如先修條件、學分、學習要求等,并以自然語言形式向學生闡明課程被推薦的理由及其相關性等級。
材料與方法
為驗證KG-BeMF方法的有效性,研究選取了厄瓜多爾一所高等教育機構信息技術(Information Technology, IT)學位2020年至2022年的真實數據集進行案例分析。該數據集包含約1935名學生修讀57門課程的記錄。數據準備階段,將學生的最終成績(0-10分,7分及格)轉換為1-3分的歸一化評分,并構建了學生-課程評分矩陣。
知識圖譜的構建利用了Schema.org的詞匯表,并擴展定義了用于描述推薦和學生的本體類。數據通過OntoRefine工具轉換為資源描述框架格式,并存儲在GraphDB圖數據庫中。實驗部分將提出的KG-BeMF方法(其核心預測引擎為BeMF模型)與三種基線模型——狄利克雷矩陣分解、樸素貝葉斯協同過濾和神經協同過濾進行了性能比較。通過網格搜索和4折交叉驗證確定了各模型的最佳超參數。
評估結果顯示,盡管各模型的混淆矩陣表現趨勢相似,但伯努利矩陣分解在精確率、召回率和F1-分數上略優于其他模型。更關鍵的是,通過引入知識圖譜對BeMF的初始推薦結果進行過濾(去除已通過課程等低可靠性推薦),推薦系統的精確率從55%顯著提升至85%。這表明知識圖譜的整合有效去除了不合適的候選課程,增強了系統的可靠性。此外,系統還計算了可解釋精確度指標,結果表明約有70%的推薦課程能夠從知識圖譜中獲得充分的解釋依據,體現了系統的透明度。
實驗結果與討論
消融研究表明,單純的BeMF模型雖然能產生預測,但其推薦結果中可能包含學生已通過的課程(低可靠性推薦)。通過集成知識圖譜進行過濾后,系統成功排除了這類不相關項,從而在犧牲少量召回率的情況下大幅提升了精確度。歸一化折損累計增益指標顯示,系統在推薦列表的前5位和前10位均能保持高相關性課程排序。
從理論意義上看,本研究通過結合概率模型(伯努利矩陣分解)與結構化知識(知識圖譜),為教育推薦系統提供了一種兼顧預測準確性與語義可解釋性的混合框架。伯努利模型能夠捕捉學生行為的不確定性,而知識圖譜則賦予了系統基于領域規則進行推理和解釋的能力。
在實踐應用方面,KG-BeMF方法能有效緩解傳統協同過濾中的冷啟動(對新用戶)和稀疏性問題,因為它不僅依賴用戶-課程交互矩陣,還利用了課程間的語義關系。系統提供的解釋性輸出,例如課程級別、學分要求和先修條件,有助于學生理解推薦邏輯,從而在選課時做出更有信心的決策。該方法易于適配不同教育機構,僅需基本的學籍、成績和課程大綱數據即可部署。
然而,本研究也存在一定局限性。當前系統的個性化程度主要基于學生成績,尚未深度整合學生的人口統計學特征或學習風格等個人屬性。此外,研究數據僅來源于單一機構的特定學位項目,未來需要在更廣泛的數據集上進行驗證。未來的工作方向包括納入更多學期數據、探索結合大型語言模型進行更豐富的語義解釋,以及研究分布式計算方案以提升系統在大規模數據下的可擴展性。
結論與未來工作
本文提出并驗證了一種融合協同過濾與知識圖譜的可解釋課程推薦系統。實驗證明,基于伯努利矩陣分解的預測模型在處理學生課程狀態數據時具有優勢,而知識圖譜的集成進一步通過過濾和排序,提升了推薦的準確性與可靠性。該系統不僅能生成有效的課程建議,還能通過知識圖譜提供的元數據為學生提供清晰的解釋,從而在選課過程中增強學生的決策信心。
展望未來,研究計劃擴展實驗數據規模,整合更多維度的學生信息以尋找相似學習者。此外,探索利用大型語言模型處理非結構化課程資料,以及應用圖神經網絡模型如神經圖協同過濾和知識圖譜注意力網絡,將是進一步提升系統性能和解釋能力的重要方向。最終目標是為學生提供一個高度個性化、透明可信的智能選課助手,優化其學術規劃體驗。