머숨 미러

DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks.

deepswe.datacurve.ai

TS/JS/Go/Rust/Python 을 대상으로 총 91개의 레포지토리로 측정했다고해

새로운 이슈를 만들어 푸는지보는데

버그해결/리펙토링 등등이 있다고함

Measuring frontier coding agents on original, long-horizon engineering tasks - datacurve-ai/deep-swe

github.com

AI 에게 어떤 문제를 풀라고 시켰는지 볼 수 있어

1ebec223e0dc2bae61abe9e74683726d31d6aecbef7d88a793a51014f8a7a9050b5fce6817d6a6fe05

결과는 GPT 승.

이런거 보지말고 순수황흐프하자 이기

슈퍼막코더(126.133) 2026-05-28 08:31:00

답글

ai 는 gpt codex 를 쓰도록

피치피(183.101) 2026-05-28 08:32:00

답글

@피치피(183.101) 젬미니로 충분하다 이기

슈퍼막코더(126.133) 2026-05-28 08:33:00

deepSWE 벤치마크 - 데이터오염없는 새벤치 1위는 누구?