https://deepswe.datacurve.ai/blog#limitations

DeepSWE
DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks.
deepswe.datacurve.ai
TS/JS/Go/Rust/Python 을 대상으로 총 91개의 레포지토리로 측정했다고해
새로운 이슈를 만들어 푸는지보는데
버그해결/리펙토링 등등이 있다고함
https://github.com/datacurve-ai/deep-swe
GitHub - datacurve-ai/deep-swe: Measuring frontier coding agents on original, long-horizon engineering tasks
Measuring frontier coding agents on original, long-horizon engineering tasks - datacurve-ai/deep-swe
github.com
AI 에게 어떤 문제를 풀라고 시켰는지 볼 수 있어
결과는 GPT 승.
이런거 보지말고 순수황흐프하자 이기
ai 는 gpt codex 를 쓰도록
@피치피(183.101) 젬미니로 충분하다 이기