👋 縱覽

SWE-bench 是一個用於評估大型語言模型的基準，這些模型是從 GitHub 收集的真實軟體問題。給定一個 代碼庫 和一個問題，語言模型的任務是生成一個 修補程式 來解決所描述的問題。

🚀 設置

要從源代碼構建 SWE-bench，請按照以下步驟操作:

克隆此倉庫到本地
cd 進入倉庫
運行 conda env create -f environment.yml 創建名為 swe-bench 的 conda 環境
使用 conda activate swe-bench 激活環境

💽 使用

你可以直接下載 SWE-bench 數據集 (開發, 測試集) 或從 HuggingFace 下載。要使用 SWE-Bench，你可以:

在我們預處理的數據集上訓練自己的模型
在現有模型上運行推理（不管是本地的模型，比如LLaMA，還是通過API訪問的模型，比如GPT-4）。推理步驟是你獲取一個倉庫和一個問題，讓模型嘗試去修復它。
對模型進行評估。這是你拿到一個 SWE-Bench 任務和一個模型提出的解決方案，然後評估其正確性。
在你自己的倉庫上運行 SWE-bench 的數據收集過程，以創建新的 SWE-Bench 任務。

⬇️ 下載

數據集	模型
🤗 SWE-bench	🦙 SWE-Llama 13b
🤗 "Oracle" Retrieval	🦙 SWE-Llama 13b (PEFT)
🤗 BM25 Retrieval 13K	🦙 SWE-Llama 7b
🤗 BM25 Retrieval 27K	🦙 SWE-Llama 7b (PEFT)
🤗 BM25 Retrieval 40K
🤗 BM25 Retrieval 50K (Llama tokens)

🍎 教程

我們還撰寫了以下有關如何使用SWE-bench不同部分的博客文章。如果您想看到有關特定主題的文章，請通過問題告訴我們。

[Nov 1. 2023] Collecting Evaluation Tasks for SWE-Bench (🔗)
[Nov 6. 2023] Evaluating on SWE-bench (🔗)

💫 貢獻

我們很樂意聽取來自更廣泛的 NLP、機器學習和軟體工程研究社區的意見，並歡迎任何貢獻、拉取請求或問題！為此請提交新的拉取請求或問題，並根據相應的模板填寫。我們將盡快跟進！

聯繫人: Carlos E. Jimenez 和 John Yang (Email: {carlosej, jy1682}@princeton.edu).

✍️ 引用

如果你覺得我們的工作有幫助，請使用以下引用。

@inproceedings{
    jimenez2024swebench,
    title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
    author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
    booktitle={The Twelfth International Conference on Learning Representations},
    year={2024},
    url={https://openreview.net/forum?id=VTF8yNQM66}
}

🪪 授權

MIT. 參考 LICENSE.md.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_TW.md

README_TW.md

👋 縱覽

🚀 設置

💽 使用

⬇️ 下載

🍎 教程

💫 貢獻

✍️ 引用

🪪 授權

Files

README_TW.md

Latest commit

History

README_TW.md

File metadata and controls

👋 縱覽

🚀 設置

💽 使用

⬇️ 下載

🍎 教程

💫 貢獻

✍️ 引用

🪪 授權