《Computers and Education Open》:Ethical conditions for university students’ adoption of large language models in exam preparation contexts
編輯推薦:
本文探討了大型語言模型(LLMs)在高等教育考試準備中的應用倫理。研究者調查了西班牙大學生的倫理觀念(基于道德公平、結果論和義務論)如何影響其使用LLMs的意向(IU)及實際使用行為(USE)。研究發現,三種倫理維度均為使用意向的必要條件,其中結果論(CO)和義務論(DE)是意向的充分預測因子,而使用意向(IU)則是實際使用(USE)的必要且充分條件。該研究為理解AI教育工具的倫理接受機制提供了實證基礎。
大型語言模型(LLMs)如ChatGPT,正以前所未有的力量改變著高等教育的格局。學生們可以利用它們總結內容、解釋復雜概念,甚至生成模擬考題,以此輔助備考。然而,這股技術浪潮也裹挾著倫理的暗流:使用LLMs準備考試是否公平?是否會加劇“數字鴻溝”?是否意味著逃避了真正的學習過程,從而損害了學術誠信?這些問題懸而未決,而高校管理者、教師和學生們都迫切需要清晰的指引。
在此背景下,來自西班牙羅維拉·威爾吉利大學(Universitat Rovira i Virgili)和康普頓斯大學(Universidad Complutense de Madrid)的研究團隊,Antonio Pérez-Portabella、Mario Arias-Oliva和Graciela Padilla-Castillo等人,決定深入探究大學生們的內心“倫理天平”。他們想知道:當學生們面對LLMs這個強大的“外掛”時,是哪些倫理考量在真正左右他們的決定?僅僅是覺得“有用”嗎?還是關乎“公平”、“責任”或“規則”?更重要的是,這些倫理判斷僅僅是“入場券”,還是能直接“助推”使用行為?
為了回答這些問題,研究人員在2025年4月至6月間,對151名西班牙社會科學領域的本科生進行了一項問卷調查。他們巧妙地將經典的多維倫理量表(MES) 與技術接受模型(TAM/UTAUT) 的理論框架相結合。MES測量了三種核心的倫理視角:道德公平(ME,指行為是否公平、公正)、結果論(CO,關注行為帶來的后果是好是壞)和義務論(DE,強調遵守規則和履行責任) 。研究設定了兩個核心目標:第一(RO1),探究這三種倫理感知是否是學生產生使用意向(IU)的“必要條件”——即,達不到某個最低門檻,意向就無從談起;第二(RO2),分析這些倫理感知是否也是“充分條件”——即,更高的倫理評價是否能直接帶來更強的使用意向和實際使用(USE)。為達成這兩個互補的目標,研究采用了兩種高級統計方法:必要條件分析(NCA) 和偏最小二乘結構方程模型(PLS-SEM)。
研究結果為我們描繪了一幅細致而深刻的倫理決策圖景。
4.2. 必要條件分析(研究目標1)的結果
通過NCA分析發現,所有三種倫理維度——道德公平(ME)、結果論(CO)和義務論(DE)——都是形成使用意向(IU)的必要條件。這意味著,如果學生在任何一項上的評分過低,他們幾乎不可能產生使用LLMs備考的強烈意愿。具體而言,ME的必要性效應值(d= 0.338)最高,其次是CO(d= 0.274)和DE(d= 0.207),且均具有統計學顯著性(p< 0.001)。同時,使用意向(IU)本身也是實際使用行為(USE)的必要條件(d= 0.325, p< 0.001)。瓶頸分析進一步量化了這些“門檻”:例如,要達到中等水平(50百分位)的使用意向,學生至少需要在ME上達到23.8百分位,在DE上達到20百分位。
4.3. PLS-SEM分析(研究目標2)的結果
PLS-SEM分析則揭示了哪些因素是“充分”的驅動力。結果顯示,使用意向(IU)對實際使用(USE)具有極強的預測力(β = 0.905, p< 0.001),證實了它是實際行為的充分條件。在三種倫理維度中,只有結果論(CO)和義務論(DE)對使用意向(IU)有顯著的正向影響(CO: β = 0.350, p= 0.038; DE: β = 0.329, p= 0.013),即它們是使用意向的充分條件。而道德公平(ME)的影響在統計上并不顯著(β = 0.108, p= 0.414)。
這一看似矛盾的結果(ME必要但不充分)恰恰是本研究最重要的發現之一。它表明,公平感(ME)是一道“倫理基線”或“許可門檻”。學生首先必須覺得使用LLMs備考大體上是公平的、正當的,才會考慮去用它。然而,一旦跨過了這道門檻,決定他們“用多用少”、“多想用”的,就不再是公平感本身,而是更多取決于工具能帶來多大好處(CO) 以及是否符合他們心中的責任與規則(DE)。換句話說,學生們會想:“用這個公平嗎?(ME過關了)”→ “它能幫我高效通過考試嗎?(CO驅動)”→“用它來完成學業目標,算是我對學校、家庭盡到責任了嗎?(DE驅動)”。研究還發現,CO和DE之間存在一定的補償效應,即一方不足時,另一方可以補上以維持較高的使用意向,但ME不具備這種補償性。
結論與討論
這項發表在《Computers and Education Open》上的研究,為理解LLMs在教育場景中的倫理接受度提供了關鍵見解。它證實,學生的決策并非單一維度的功利計算,而是融合了多種倫理框架的復雜判斷。道德公平確立了行為的可接受性,而結果論和義務論則提供了將接受性轉化為實際接受和使用的動機。
其重要意義在于為教育實踐提供了清晰的路線圖:
- 1.
政策制定需超越技術層面:高校在引入LLMs時,不能只提供工具,必須配套明確的倫理指南和數字素養培訓,幫助學生建立負責任的使用觀念。
- 2.
強調“公平準入”的基礎性:研究突顯了ME作為必要條件的核心地位。因此,確保所有學生都能平等、合法地獲得功能相當的LLM工具,是防止加劇教育不公、維護學術誠信生態的基石。
- 3.
利用“結果”與“責任”驅動良性使用:教育者可以設計教學活動,突出LLMs在提升學習效率(CO)和支持達成學習目標(DE,作為學生對學業的責任)方面的積極作用,從而引導其向善使用。
- 4.
評估方式的革新:鑒于學生傾向于使用他們認為有益的工具,單純的禁止可能無效。教育者應轉向注重過程、批判性思維和創造力的評估方式,使得LLMs從“答題捷徑”轉變為“思維伙伴”。
當然,研究也存在局限,如樣本局限于西班牙社會科學學生、橫截面數據無法反映動態變化等。未來的研究可以拓展到不同文化背景、學科領域,并引入縱向追蹤或結合質性訪談,以更全面地描繪AI時代學生倫理決策的演變圖譜。無論如何,這項研究已經有力地證明,在技術狂奔的時代,倫理的羅盤,始終是駕馭技術風帆不可或缺的導航儀。