https://x.com/cognition_labs/status/1767548763134964000?s=20
Today we're excited to introduce Devin, the first AI software engineer.
— Cognition (@cognition) March 12, 2024
Devin is the new state-of-the-art on the SWE-Bench coding benchmark, has successfully passed practical engineering interviews from leading AI companies, and has even completed real jobs on Upwork.
Devin is… pic.twitter.com/ladBicxEat
오늘은 최초의 AI 소프트웨어 엔지니어인 Devin을 소개하게 되어 기쁘게 생각합니다.
Devin은 SWE-Bench 코딩 벤치마크의 새로운 최첨단 기술이며 선도적인 AI 회사의 실무 엔지니어링 인터뷰를 성공적으로 통과했으며 Upwork에서 실제 작업도 완료했습니다.
Devin은 자체 셸, 코드 편집기 및 웹 브라우저를 사용하여 엔지니어링 작업을 해결하는 자율 에이전트입니다.
AI에게 실제 오픈 소스 프로젝트에서 발견된 GitHub 문제를 해결하도록 요청하는 SWE-Bench 벤치마크에서 평가했을 때 Devin은 지원 없이 문제의 13.86%를 올바르게 해결했습니다. 이는 이전의 최첨단 모델 성능을 훨씬 뛰어넘는 수치입니다. 도움을 받지 않은 경우는 1.96%, 도움을 받은 경우는 4.80%입니다.
아래 스레드에서 Devin이 무엇을 할 수 있는지 확인해 보세요.
###
SWE 벤치: 언어 모델이 실제 GitHub 문제를 해결할 수 있습니까?
캬 고생했다
확장이네. - dc App
싹!
끝났다
문제의 13%를 해결 ㅋㅋㅋㅋ
나도 이거 보고 터짐 ㅋㅋㅋㅋㅋㅋㅋ
올해 말에 어떨 거 같음??
해당 오픈 소스 Github issue 에 등록된 issue 의 13프로를 해결했다는 거 아닐까
언제나오냐
자가발전 부분이라 아직 미약하긴하지. 자기 코드를 고칠수 있는 수준이 되면 그때부터는...