由于監管環境迅速變化[1]以及隨之而來的監管文件數量的增長[2],[3],合規性已成為組織日益關注的問題。相關的監管文件往往內容廣泛且復雜[1],[2],這使得其分析工作既費力又容易出錯[2]。
在眾多支持合規性相關任務的方法中(例如,從監管文本中提取軟件需求[1],[4],或檢查軟件需求是否符合監管要求[5],[6]),存在許多基于模型的方法[3],[7]。由于這些方法的半正式性質,它們能夠為合規性檢查任務提供自動化支持[8]。憑借其概念性和可視化特性,它們還有潛力作為分析工具,例如分析監管對組織目標或業務流程的影響[3],[7]。此外,作為基于模型的方法,它們還可以促進例如旨在實現合規軟件系統的需求工程師之間的共同理解。
以法律目標為導向的需求語言(Legal Goal Requirements Language, Legal GRL)就是這樣一種基于模型的合規性方法。作為一種以目標為導向的語言[7],Legal GRL提供了一種可視化的建模符號和方法來檢查組織目標和流程的合規性。憑借其可視化符號,Legal GRL有可能使需求工程師更容易理解合規性問題[9]。在建立在堅實的監管概念基礎上的成熟法律目標需求語言(GRL)之上,并得到成熟軟件工具的支持[11],Legal GRL為支持合規性提供了一種有前景的建模方法。
然而,目前使用Legal GRL進行規范建模和分析還缺乏自動化輔助,這使得其使用既耗時又容易出錯[12],[13]。此外,我們的經驗表明,對于新用戶來說,Legal GRL的學習曲線較為陡峭,主要是因為除了建模方法本身外,還需要掌握其背后的監管框架。這種概念復雜性與缺乏自動化輔助的結合降低了新用戶的可訪問性。
因此,有人呼吁自動化使用Legal GRL進行規范建模和分析[9],[12],[13]。早期的工作[12],[13]提出了一種基于邏輯的自動化方法,但尚未完全實現。最近,[9]提出了使用大型語言模型(LLMs)自動創建Legal GRL模型的方法。核心思想是依靠提示模式[14, p. 7]來輔助法律文本的規范分析。例如,在要求LLM分析法規時,應用了基于角色的提示來突出特定參與者。
盡管如此,[9]僅初步嘗試利用LLMs進行Legal GRL的自動化建模。如第2節所述,它采用了一個詳盡的、順序的提示列表,嚴格遵循原始的Legal GRL方法,但沒有評估每個步驟的真正必要性,也沒有糾正中間錯誤的機制。此外,某些建模概念(如貢獻鏈接)在提示設計中規定得不夠充分。
作為回應,我們在本文中提出了CLERK:一個用于建模規范知識的輔助大型語言模型專家(CLERK)。CLERK結合了精心挑選的提示技術來支持從監管文本中創建Legal GRL模型的任務。具體來說,CLERK在以下方面改進了現有工作:(1)它通過將復雜步驟分解為可管理的任務來簡化規范建模,僅關注構建Legal GRL模型所必需的步驟。為此,CLERK使用了思維樹(ToT)提示框架[14, p. 13],該框架允許將建模問題分解為一組子任務。(2)ToT框架允許對中間輸出進行自我反思和評估[15],從而選擇構建最終Legal GRL模型時最有前途的分支。(3)CLERK利用額外的上下文學習提示技術來提高一致性和清晰度。這些提示技術包括少量樣本提示[14, p. 13]和具有明確語法定義的輸出格式化。
為了開發和評估CLERK,我們采用了設計科學研究方法[16],具體遵循圖1中所示的規范周期[17, p. 28]。我們從問題識別開始,基于文獻回顧和第2.1節和第2.2節中概述的先前工作。在第2.3節中提出了CLERK的設計考量。在治療驗證階段(也在第2.3節中),我們評估了可以從早期工作中保留哪些組件,并確定實現設計目標所需的額外元素。在第3節中詳細介紹了CLERK的實現,包括(1)使用名為ToT4DM的框架(第3.2節)來定制LLMs以適應建模問題,(2)使用上下文學習(第3.3節),以及(3)支持軟件實現(第3.4節)。最后,在第4節中,我們采用了雙重評估方法。首先,我們進行了兩項實驗:一項使用[9]中的能源領域監管文章數據集進行基線比較,另一項實驗使用包含醫療保健法規的擴展數據集。其次,我們根據之前確定的設計考量對CLERK進行了評估。
除了執行規范周期外,我們在第5節還討論了我們在兩個關鍵領域的經驗:選擇合適的提示技術和設計這兩個實驗。這些反思提供了我們選擇背后的理由、遇到的挑戰以及未來改進的考慮因素。