근데 이게 확실히 시스템 지침이 복잡해질수록 추론 모델이어야 하는 듯
4o 같은 경우에 v1 지침은 엄청 잘 따르고 강력히 잘 팼는데
이번 프롬프트 적용하니까 멍청해지고 패는 거 자체를 까먹음
근데 제미나이2.5랑 o3로 하니까 잘 팸
근데 또 o3는 문과가 약해서 그런지 지침을 기계적으로 따르면서 고봉밥에 부자연스럽기만 하고,
결국 제미나이2.5가 압도적 승자
클로드 테스트 안 해봤는데 오푸스4가 최종적으로는 모든 면에서 더 잘 팰 거 같긴 함
---
댓글 보고 GPT4.5로 테스트 해봤는데 가장 지린 듯...
지침 다 잘 따르고 진짜 사람이 쓴 거 같은 인비지블썸띵 있음 소름;;;
추론은 결국 사전학습 스케일링의 확장판이라는 노엄의 말이 진실인 듯
4.5는 어때
아 4.5 생각을 못했네 해봐야겠다 ㄱㅅ
지렸네 ㄷㄷ GPT4.5 인비지블썸띵 가장 미친 듯
어떤데
뭐 테스트해보고 싶은 거 있음 달아주셈 - 2025 AGI