https://x.com/cognition_labs/status/1767548763134964000?s=20


29f3c028e2f206a26d81f6e74e86736b38




오늘은 최초의 AI 소프트웨어 엔지니어인 Devin을 소개하게 되어 기쁘게 생각합니다.



Devin은 SWE-Bench 코딩 벤치마크의 새로운 최첨단 기술이며 선도적인 AI 회사의 실무 엔지니어링 인터뷰를 성공적으로 통과했으며 Upwork에서 실제 작업도 완료했습니다.



Devin은 자체 셸, 코드 편집기 및 웹 브라우저를 사용하여 엔지니어링 작업을 해결하는 자율 에이전트입니다.



AI에게 실제 오픈 소스 프로젝트에서 발견된 GitHub 문제를 해결하도록 요청하는 SWE-Bench 벤치마크에서 평가했을 때 Devin은 지원 없이 문제의 13.86%를 올바르게 해결했습니다. 이는 이전의 최첨단 모델 성능을 훨씬 뛰어넘는 수치입니다. 도움을 받지 않은 경우는 1.96%, 도움을 받은 경우는 4.80%입니다.



아래 스레드에서 Devin이 무엇을 할 수 있는지 확인해 보세요.


###

SWE 벤치: 언어 모델이 실제 GitHub 문제를 해결할 수 있습니까?

https://arxiv.org/abs/2310.06770