EXAONE 4.0.1 (추론모드 수동 활성화)
엑사원은 특이한점이 있는데
인간이 직접 수동으로
추론모드를 켜야지 작동하게 만듬
2025년 7월 15일
Llama-3.3-70B-Instruct
70B 2024년 12월 6일
Qwen3-32B 32.8B
Qwen3는 추론모드를
본인이 판단해서 끄거나 키는 자동형
2025년 4월 28일
Llama-3.3-70B-Instruct 70B
2024년 12월 6일
출시일은
EXAONE 4.0.1 (수동 활성화)
QwQ-32B-Preview (자동 추론)
Llama-3.3 / (추론 모드 없음)
순서인데
결론부터 말하자면
순수 수학 추론 능력은
새삥 EXAONE이 우승함
13시간동안 코드짜서
P95 Entropy.추론방식.환각 발생률,토큰 확신도
토큰 사용량.연산량
테스트지 만들고
직선과 원이 교차하는지를
수학적으로 판정하는 문제를 냄
(동경대 수리논술)
추가로 llm이 문제를 암기했을껄
염두해서
설정값으로
suspicion_pct (0~100)
구조 변형에도 답이 안 바뀐 정도
sensitivity_index (0~1)
구조 변형에서 평균적으로 얼마나 바뀌었나
(= 1 - 평균유사도)
이렇게 박아뒀고
문제 A에서
A-1.A-2.A-3
총 3문제
문제는 넣을려다가
별로 의미없을꺼 같아서 안넣음
각 모델별 수리논술 추론과정
Llama 3.3-70B는 이번 문제에서 기권패 했고
수학 정답/완결성은 낮게 관측
대신 프롬프트 변화 반응성(Sensitivity)은 0.566으로 가장 높아 입력/지시가 바뀌면 출력 유연성은 가장 높았는데
수학 과제에서는 그 유연성이 완결성/수렴으로 이어지지 못함
Qwen3-32B은 전부 정답
풀이 방식은 식 세우기 → 전개 → 판별식/부등식 정리 같은 절차를 따라 계산으로 끝까지 밀어붙이는 절차형
포맷 안정성은 Parse Fail 0%로 가장 우위
규격이 엄격한 프롬프트가 제시 된
작업에 특히 유리했음
대신 토큰 불확실성(p95)이 0.660으로 가장 높아
토큰 선택에서 망설임(여러 후보 사이 탐색)
신호가 상대적으로 높았고 연산량 토큰을 많이 잡아먹음
엑사원도 전부 정답
엑사원 전개 스타일은 핵심 조건을 먼저 잡은 뒤 필요한 계산만 최소로 하고 결론으로 가는 정리형이었어.
토큰 불확실성(p95)은 0.425로 가장 낮아서 출력이 비교적 단호하고 확신 있게 나오는 편으로 보였고
다만 포맷은 샘플링 구간에서 25% 정도 이탈이 있음
추론 과정에서 흥미로운점
Llama-3.3-70B: 파라미터 체급은 가장 크지만
문제 풀이과정에서
(A-2구간)
복잡성 때문에 유도하지 못하겠다고
혼자 기권선언함
토큰효율
(작을수록 좋음)
Qwen3-32B: 404
EXAONE-4.0.1-32B: 422
Llama-3.3-70B-Instruct: 476
연산효율
(작을수록 좋음)
Qwen: 404 × 32 = 12,928
EXAONE: 422 × 32 = 13,504
Llama: 476 × 70 = 33,320
추론속도
(작을수록 좋음)
EXAONE: 0.588s
Qwen: 0.716s
Llama: 1.023s
한 줄 결론
수학 추론/완결성: EXAONE ≳ Qwen >> Llama
운영(포맷 안정성): Qwen >> EXAONE ≈ Llama
수학 추론: 엑사원 승
포맷 안전성: Qwen 승
(프롬프트가 정교하지 못하다면 환각 나올 가능성이 높음)
추론 알고리즘: 엑사원 승
연산량 대비 효율: Qwen 승
(엑사원은 추론 검증과정이 우수하나
그만큼 연산 토큰을 많이 잡아 먹음)
추론속도: 엑사원 승
설계철학의 차이가 흥미로웠음
프렌들리 AI 호출에서 엑사원 32b경량 모델
비교군이 Qwen말고는 마땅이 없어서
비교군이 적었음
끝.
- dc official App
댓글 0