39b5d535ecdc3fb362bec4bc02c8696fb256f74f759309ade12b06de472a1eb6d2de85e1724d924be227806a960279fc

EXAONE 4.0.1 (추론모드 수동 활성화)

엑사원은 특이한점이 있는데

인간이 직접 수동으로
추론모드를 켜야지 작동하게 만듬

2025년 7월 15일

39b5d535ecdc3fb362bec4bc02c8696fb256f74f759309ade12b06de472a1eb6d2dc85e1724d924be227806a9e027afad7

Llama-3.3-70B-Instruct
70B 2024년 12월 6일

39b5d535ecdc3fb362bec4bc02c8696fb256f74f759309ade12b06de472a1eb6d2dd85e1724d924be227806a980679f5

Qwen3-32B 32.8B

Qwen3는 추론모드를
본인이 판단해서 끄거나 키는 자동형

2025년 4월 28일


Llama-3.3-70B-Instruct 70B
2024년 12월 6일


출시일은

EXAONE 4.0.1 (수동 활성화)
QwQ-32B-Preview (자동 추론)
Llama-3.3 / (추론 모드 없음)

순서인데

결론부터 말하자면
순수 수학 추론 능력은
새삥 EXAONE이 우승함

39b5d535ecdc3fb362bec4bc02c8696fb256f74f759309ade12b06de472a1eb6d2d885e1724d924be227806a9d0678fc09

13시간동안 코드짜서

P95 Entropy.추론방식.환각 발생률,토큰 확신도
토큰 사용량.연산량
테스트지 만들고


직선과 원이 교차하는지를
수학적으로 판정하는 문제를 냄

(동경대 수리논술)


추가로 llm이 문제를 암기했을껄
염두해서

설정값으로

suspicion_pct (0~100)
구조 변형에도 답이 안 바뀐 정도

sensitivity_index (0~1)
구조 변형에서 평균적으로 얼마나 바뀌었나
(= 1 - 평균유사도)


이렇게 박아뒀고


문제 A에서
A-1.A-2.A-3
총 3문제

문제는 넣을려다가
별로 의미없을꺼 같아서 안넣음

각 모델별 수리논술 추론과정

39b5d535ecdc3fb362bec4bc02c8696fb256f74f759309ade12b06de472a1eb6d2d485e1724d924be227806a9e0172fa21

Llama 3.3-70B는 이번 문제에서 기권패 했고

수학 정답/완결성은 낮게 관측


대신 프롬프트 변화 반응성(Sensitivity)은 0.566으로 가장 높아 입력/지시가 바뀌면 출력 유연성은 가장 높았는데

수학 과제에서는 그 유연성이 완결성/수렴으로 이어지지 못함

39b5d535ecdc3fb362bec4bc02c8696fb256f74f759309ade12b06de472a1eb6d2da85e1724d924be227806a9d0b72fa96

Qwen3-32B은 전부 정답

풀이 방식은 식 세우기 → 전개 → 판별식/부등식 정리 같은 절차를 따라 계산으로 끝까지 밀어붙이는 절차형

포맷 안정성은 Parse Fail 0%로 가장 우위

규격이 엄격한 프롬프트가 제시 된
작업에 특히 유리했음

대신 토큰 불확실성(p95)이 0.660으로 가장 높아
토큰 선택에서 망설임(여러 후보 사이 탐색)
신호가 상대적으로 높았고 연산량 토큰을 많이 잡아먹음

39b5d535ecdc3fb362bec4bc02c8696fb256f74f759309ade12b06de472a1eb6d2db85e1724d924be227806a9c017bf9d9

엑사원도 전부 정답

엑사원 전개 스타일은 핵심 조건을 먼저 잡은 뒤 필요한 계산만 최소로 하고 결론으로 가는 정리형이었어.

토큰 불확실성(p95)은 0.425로 가장 낮아서 출력이 비교적 단호하고 확신 있게 나오는 편으로 보였고
다만 포맷은 샘플링 구간에서 25% 정도 이탈이 있음


추론 과정에서 흥미로운점

Llama-3.3-70B: 파라미터 체급은 가장 크지만
문제 풀이과정에서

39b5d535ecdc3fb362bec4bc02c8696fb256f74f759309ade12b06de472a1eb6d2d985e1724d924be227806a9b067bfe93

(A-2구간)
복잡성 때문에 유도하지 못하겠다고
혼자 기권선언함



토큰효율
(작을수록 좋음)
Qwen3-32B: 404
EXAONE-4.0.1-32B: 422
Llama-3.3-70B-Instruct: 476

연산효율
(작을수록 좋음)
Qwen: 404 × 32 = 12,928
EXAONE: 422 × 32 = 13,504
Llama: 476 × 70 = 33,320


추론속도
(작을수록 좋음)
EXAONE: 0.588s
Qwen: 0.716s
Llama: 1.023s



한 줄 결론

수학 추론/완결성: EXAONE ≳ Qwen >> Llama
운영(포맷 안정성): Qwen >> EXAONE ≈ Llama

수학 추론: 엑사원 승
포맷 안전성: Qwen 승
(프롬프트가 정교하지 못하다면 환각 나올 가능성이 높음)

추론 알고리즘: 엑사원 승
연산량 대비 효율: Qwen 승
(엑사원은 추론 검증과정이 우수하나
그만큼 연산 토큰을 많이 잡아 먹음)

추론속도: 엑사원 승

설계철학의 차이가 흥미로웠음

프렌들리 AI 호출에서 엑사원 32b경량 모델
비교군이 Qwen말고는 마땅이 없어서
비교군이 적었음

끝.

- dc official App