中文字幕三区,啪啪综合网,亚洲熟女VS国产对比

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

邁向多語言倉庫級別的代碼生成：從零開始到指導式任務

《Neurocomputing》：Towards multi-language repository-level code generation: From-scratch to guided tasks

【字體：大中小】 時間：2026年03月01日 來源：Neurocomputing 6.5

編輯推薦：

　　提出ReCode-bench多語言倉庫級代碼生成基準，涵蓋從零開始創建項目及結構/功能導向開發任務，并設計RepoGenesis框架整合結構相似性、語法正確性和功能有效性的三維獎勵機制，實驗顯示經訓練的Qwen2.5-Coder-7B表現接近Claude-Sonnet-4。

摘要

倉庫級別的代碼生成是自動化軟件開發的基本構建塊。因此，已經提出了許多基準測試來評估大型語言模型（LLMs）在這個領域的能力。然而，現有的基準測試主要局限于單一編程語言和固定的粒度級別。為了解決這兩個問題，我們引入了ReCode-bench，這是一個多語言基準測試，涵蓋了7種廣泛使用的編程語言，并包括三個倉庫級別的代碼生成任務。這些任務圍繞不同的需求粒度級別設計，包括從零開始創建整個項目以及基于結構或功能規范的指導性開發。在后者中，故意引入的需求被視為正噪聲，以更好地反映真實的開發場景。為了提高LLM在這些任務中的魯棒性，我們提出了RepoGenesis，這是一個基于GRPO的強化學習框架，它結合了3種不同的獎勵信號：與人類編寫倉庫的結構相似性、通過抽象語法樹分析驗證的句法正確性，以及通過單元測試執行確認的功能有效性。我們在ReCode-bench上評估了8種LLM，發現即使是目前最強的代碼生成模型Claude-Sonnet-4，在這三個任務中的平均通過率也不到4%。然而，在使用RepoGenesi訓練后，Qwen2.5-coder-7B-Instruct的性能與Claude-Sonnet-4相當（

100B）。

引言

由于倉庫級別的代碼生成與現實世界的軟件開發密切相關，并且具有提高開發效率的潛力[1]、[2]、[3]，近年來它受到了越來越多的關注。為了推進這項研究，研究人員提出了各種評估基準測試——例如COMMIT0 [4]、TESTEVAL [5]、DevEval [6]、SWE-bench [7]、RepoBench [8] 和 RepoDebug [9]，以評估模型在倉庫級別代碼生成任務上的表現。然而，大多數現有的基準測試僅限于Python編程語言，這使得難以評估LLM在多語言開發環境中的泛化和適應能力。實際上，軟件項目通常涉及多種語言，如Java、Go和Rust。此外，當前的基準測試主要關注函數級別[10]或文件級別[6]的代碼生成，缺乏在倉庫級別的系統評估。雖然COMMIT0擴展了任務范圍，包括從零開始構建代碼庫，但它仍然忽略了現實世界軟件開發中遇到的關鍵場景。這些場景包括軟件生命周期的不同階段——構思、框架搭建和實現——涉及不同級別的需求粒度，例如帶有給定依賴關系的倉庫功能結構或詳細的函數規范（例如，自然語言注釋）。

為了解決這兩個關鍵問題，我們引入了ReCode-bench，這是一個新的基準測試，旨在支持多種語言和不同任務復雜度的倉庫級別代碼生成，使評估設置更接近實際軟件開發中面臨的挑戰。我們仔細地從GitHub收集了7種廣泛使用的編程語言。如圖1所示，我們還設計了三種任務類型，模擬真實的軟件開發場景，在這些場景中，故意引入的需求變化和開發約束作為正噪聲來挑戰模型并鼓勵其進行魯棒推理。這些任務包括從零開始生成整個項目（難度較高）、根據項目中每個文件的功能布局生成代碼（難度中等），以及根據詳細的函數級別描述生成代碼（難度較低）。

期望從零開始構建完整項目的自動化代碼生成系統生成的輸出不僅在語法上正確，而且在結構上連貫、可編譯和可測試。盡管強化學習在函數完成[11]、[12]和代碼修復[13]等局部任務上取得了進展，但現有方法在生成完整軟件倉庫方面的能力仍然有限。為了解決這一挑戰，我們提出了RepoGenesis，這是一種基于帶有程序目標的引導式強化的倉庫級別代碼生成方法，它通過結構化的獎勵函數指導大型語言模型逐步合成完整的軟件項目。該框架結合了基于抽象語法樹的靜態分析和動態測試反饋，以構建多維獎勵信號，從而能夠在多種編程語言和任務設置中有效評估代碼的語義正確性、結構合理性和可執行性。

我們的主要貢獻可以總結為以下三點：

•

據我們所知，我們是第一個引入支持多種語言和不同任務復雜度的倉庫級別代碼生成基準測試的團隊。

•

為了提高LLM在這些任務中的代碼生成能力，我們提出了RepoGenesis，這是一個基于GRPO的強化學習框架，具有3種不同的獎勵信號。

•

實驗結果突顯了當前LLM的局限性，并證明RepoGenesis使Qwen2.5-Coder-7B的性能與Claude Sonnet 4相當（

100B）。

ReCode-bench

為了解決現有基準測試中編程語言覆蓋范圍有限以及忽略現實世界軟件開發中多粒度場景的問題，我們構建了ReCode-bench。

方法論

在本文中，我們提出了RepoGenesis，這是一種基于GRPO的倉庫級別代碼生成方法。設計的生成過程如圖2所示。在這個框架中，有兩個主要組成部分：代碼生成代理和環境。代理Qwen 2.5 Coder將嘗試生成新程序，環境將幫助提供標量獎勵來評估新程序。為了生成新程序，代理將接收一個表示需求的基字符串

實驗設置

基線? 根據之前的工作[5]、[41]，我們選擇了來自開源和閉源模型的幾種LLM，旨在提供全面的評估。具體來說，我們選擇了Qwen系列（Qwen2.5-coder-7B/14B/32B-Instruct）[42]和Deepseek系列（DeepseekCoder V2-Lite/Deepseek-V3）[43]、[44]來自開源LLM。此外，我們還選擇了GPT4（GPT-4o/GPT4.1）[45]、Claude4（Claude sonnet 4）和以推理為導向的模型o3、o4-mini [46]來自閉源LLM。提示可以是

分析

在本節中，我們進行了全面分析，旨在回答兩個研究問題。RQ1：三種獎勵如何影響模型性能？（第6.1節）。RQ2：微調能否提高LLM在我們的任務中的性能？（第第6.2節）。RQ3：文件長度如何影響LLM的性能？（第第6.3節）

討論

盡管結果很有希望，但我們的研究也存在一些局限性。從數據角度來看，數據在編程語言和倉庫覆蓋范圍方面的多樣性和規模受到限制。特別是，使用結構良好的開源代碼倉庫和合成構建的任務描述可能會導致模型性能被高估，與現實世界的開發場景不符。從方法論角度來看，長上下文建模和文件

結論

我們提出了ReCode-bench，這是一個基準測試，旨在評估7種廣泛使用的編程語言和不同任務復雜度下的倉庫級別代碼生成，包括從零開始創建整個項目以及基于結構或功能規范的指導性開發，其中故意引入的噪聲反映了現實世界開發中的挑戰。在對八種LLM的系統性評估中，即使是目前最強的代碼生成模型Claude-Sonnet-4

CRediT作者貢獻聲明

Jingjing Liu：寫作 – 審稿與編輯，撰寫原始草稿，數據整理，概念化。Silin Li：寫作 – 審稿與編輯，撰寫原始草稿，可視化，概念化。Zeming Liu：監督，項目管理。Zihao Cheng：調查。Yuhang Guo：監督。Yuanfang Guo：監督。Yunhong Wang：監督。Haifeng Wang：監督。

利益沖突聲明

作者聲明他們沒有已知的財務利益或個人關系可能影響本文報告的工作。

致謝

感謝審稿人的深刻評論和反饋。這項工作得到了中國國家重點研發計劃（編號2023YFF0725600）和中國國家自然科學基金（編號62406015）的支持。

Jingjing Liu目前是中國北航大學的博士生。她的研究主要集中在大型語言模型（LLM）上，特別是LLM驅動的代理。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號

摘要

引言

相關工作