머숨 미러

가장 익숙한 코딩을 예시로 들었을 때, 모델 하나의 단발성 답변은 이제 엄청난 차이가 있지 않다고 봄. 그럼에도 개발자들이 '체감'을 많이 이야기 하는건 실사용에선 에이전트 성능이 중요하고, 이건 모델 뿐 아니라 툴 성능도 영향이 크기 때문임(물론 모델의 에이전트 적합성도 중요함. 소넷이 추론도 별로고 성능이 엄청난게 아닌데 적절한 툴 사용과 이후 계획을 매우 잘 함).

다른 분야도 원하는 일을 수행하려면 결국 에이전트가 필수임. 앞으로는 모델 뿐 아니라 에이전트 툴의 성능과 실제 세계의 문제를 담은 에이전트 벤치마크가 더 중요해질 거 같음. 아마 GPT5를 통해 이 시대가 본격적으로 열리고 앞으로는 모델 기반의 성능 측정에서 모델+툴의 에이전트 성능 측정으로 갈 듯. AGI도 단일 모델이 아니라 에이전트혹은 에이전트가 그룹을 이룬 에이전트 스웜과 같은 제품으로 등장할 거 같음.

합리적인 예측이네