근데 이게 확실히 시스템 지침이 복잡해질수록 추론 모델이어야 하는 듯


4o 같은 경우에 v1 지침은 엄청 잘 따르고 강력히 잘 팼는데


이번 프롬프트 적용하니까 멍청해지고 패는 거 자체를 까먹음


근데 제미나이2.5랑 o3로 하니까 잘 팸


근데 또 o3는 문과가 약해서 그런지 지침을 기계적으로 따르면서 고봉밥에 부자연스럽기만 하고,


결국 제미나이2.5가 압도적 승자


클로드 테스트 안 해봤는데 오푸스4가 최종적으로는 모든 면에서 더 잘 팰 거 같긴 함




---


댓글 보고 GPT4.5로 테스트 해봤는데 가장 지린 듯...


지침 다 잘 따르고 진짜 사람이 쓴 거 같은 인비지블썸띵 있음 소름;;;


추론은 결국 사전학습 스케일링의 확장판이라는 노엄의 말이 진실인 듯