o1 pro 가능해지자마자 어차피 자주 쓸 것 같아서 바로 결제했고, 전에 o1-preview랑 Gemini가 못 풀었던 문제들 위주로 물어봄
참고로 멀티모달이 되기는 하지만 한국어랑 이미지 인식 능력이 아직은 회의적이어서 사진 말고 그냥 텍스트로(수식은 latex) 물어봄
이하의 실험결과는 모두 성능 향상에 도움되는 별도의 프롬프트 없이, 1트만에 대답한 것임.
---------------------------------------------------------------------------
25 수능 수학 22번(공통)
이제껏 인공지능이 제대로 푼 걸 본 적이 없었던 수열 추론 문제
o1, gemini 등은 a_1 부터 케이스 나눠서 추론해서 케이스가 복잡해졌고, 그 와중에 빠뜨린 것들도 있어서 틀렸던 문제임
일단 |a_1| = |a_3| 인 경우랑 |a_2| = |a_4| 인 경우 배제해야겠다고 생각하고 들어가는 것부터 굿
바로 a_3 부터 케이스 나눔ㅋㅋㅋ
사실 똑똑해진 게 아니라 단순히 생각 시간만 늘린 거라면 케이스를 a_1 기준으로 나누었을 텐데
애초에 a_3 기준으로 케이스 나눈 것부터 능지가 떡상했다는 뜻
이후 각 케이스에 대해서 검산한 후에 답 제출한 것까지 완벽.
o1은 시간이 부족해서 그런건지 24를 빠뜨려서 오답
22번 정답 : 64
o1 제출 : 40 (오답, 1분 22초)
o1 pro 제출 : 64 (정답, 3분 27초)
--------------------------------------------------------------------------------------------
25 수능 수학 28번(미적)
o1-preview랑 Gemini는 문제 상황은 잘 파악했지만 부분적분 계산 못 해서 실패했던 문제
바로 1*f(x)로 바꿔서 부분적분하는 스킬 갈겨서 정답
o1 pro 말고 o1한테도 시켜봤는데 33초 만에 계산하긴 했지만 부호를 틀림.
y=f(x) 그래프 개형이 위로 볼록하게 그려야 하는데 아래로 볼록한 걸로 착각한 듯?
아무튼 o1 pro는 맞춤
22번 정답 : 2/3 + e/2
o1 제출 : -2/3 - e/2 (오답, 33초)
o1 pro 제출 : 2/3 + e/2 (정답, 2분 57초)
----------------------------------------------------------------------------------------------------
25 수능 수학 29번(미적)
이것도 o1-preview, Gemini는 초항/공비까지는 구했는데 식 계산을 잘 못해서 틀린 문제
짝수항 홀수항 나눠서 따로 합 잘 구했고, 이후 초항이랑 공비까지 잘 구함
이후 계산도 잘 했고, 부등식 유도한 후 m이 홀수인 거 안 빠뜨리고 잘 대입해서 구함
참고로 이 문제도 그냥 o1한테 시켰는데도 잘 풀었음
o1 pro는 항상 o1보다는 시간 많이 쓰던데 아마 검산하느라 그런 듯
물론 그 덕분에 o1이 틀린 다른 문제들까지 다 맞췄으니 바람직하다고 생각함
22번 정답 : 25
o1 제출 : 25 (정답, 1분 10초)
o1 pro 제출 : 25 (정답, 2분 48초)
-----------------------------------------------------------------------------------------------------
25 수능 수학 30번(미적)
o1-preview랑 Gemini는 (나) 의 주기 조건을 잘 해석 못 해서 못 풀었던 문제
이후 힌트 줬는데도 그래프 이용해서 방정식 근 찾는 부분에서 막힘
(나)의 주기 조건으로부터 a값이 1, 1.5, 2만 가능하다는 거 잘 추론해냈고,
특히 (나)의 최소 주기 조건으로부터 a가 1.5밖에 안된다는 것도 완벽히 추론해냄.
이후 f(x)의 극대점을 찾기 위한 방정식의 근을 수식적으로 구할 수는 없지만,
근사적으로 구할 수 있다는 것을 추론해냄.
구체적인 과정은 위 풀이에는 드러나있지 않아서 생각하는 과정 뚜껑 열어서 확인해봄
인간이 하는 것처럼 그래프를 그려서 근의 개수를 구하지는 않았지만
(애초에 이 과정을 visualize해서 보여줄 수 있는 기능이 없는 듯? 멀티모달이라 사실은 이것도 시키면 되려나?)
f'(x)의 부호가 바뀌는 x값의 수치를 근사적으로 예측하고 직접 대입해서 근들을 구함(...)
사실 그래프 그려서 그리는 게 더 좋은 방법이긴 하지만 계산도 이제 잘 한다는 걸 보여주는 거라고 생각함
30번 정답 : 15pi/2
o1 제출 : 15pi/2 (정답)
o1 pro 제출 : 15pi/2 (정답, 4분 33초)
-------------------------------------------------------------------
24 수능 수학 22번(공통)
대망의 작년 수능 수학 22번
단순 추론 난이도로만 따지면 역대 수능 문제 중 최강이었다고 생각함
1. 발상 자체가 수학적이게 "f(n) < 0 인 최대의 정수 n을 생각하자" 라는 식으로 이루어져야 하고,
2. 이후 인접한 두 정수에서 f가 근을 가져야 한다는 걸 알아내고,
3. 그 이후에는 근의 위치 추론한 후
4. 식 세우고 계산해서 풀어야 함
수능에 모든 걸 쏟아붓는 나라에서 정답률 1.5%라는 것에서 볼 수 있듯이 인간 상위권만 풀 수 있는 문제
이전 인공지능(o1-preview, o1-mini, Gemini)들은 1-2단계 발상 정도까지는 어느 정도 했었는데 그 이후를 돌파하지 못함
사실 삼차함수 개형 추론만 비정상적으로 좋아하는 한국 수능 스타일 + 수학적 추론을 동시에 요구하는 거라
인공지능한테 불리한 문제이기도 함
o1-pro 한테 시켰을 때도 한 10분 동안 혼자 ㅈㄴ 생각하는데, 계속 중근 가지는 경우 따지고 있고
똑같은 생각 계속 하길래 이번에도 못 푸나 싶었음
그런데
정답 : 483
혹시 운빨로 맞춘 거 아닐까? 해서 풀이과정을 봄
위 문단들을 요약하자면 "이 문제 조건 만족하는 건 존나 어려울 것 같음. 이거 만족하려면 근들이 엄청 특이하게 배치되어 있어야 할 듯?" 인데,
이게 이 문제의 핵심임을 생각하면 통찰력이 꽤 대단하다고 할 수 있음
이후 추론하는 과정 다 생략하고, 뜬금없이 f(x) = x(x-1)(x-r) 이라고 정답인 케이스를 내놓음.
일단 여기까지 식 세웠으면 이후 과정은 단순계산이니 당연히 잘 계산해서 맞췄는데,
일단 저 식이 바로 나온 게 너무 뜬금없어서 이새기 이거 운빨로 맞춘 거 아니야? 하고 생각하는 과정까지 다 검토함.
(생각하는 과정 일부 편집해서 캡처)
처음 한 2분 동안 여러 가지 시도해보다가 인접한 두 정수에서 근을 가지는 경우를 직관적으로 먼저 생각한 게 좀 신기함
Hm, that's interesting 으로 시작하는데 그 이후 과정이 날카로운게 좀 소름돋음ㅋㅋㅋ
이후 두 정수근 중 하나가 중근인 경우를 구해보는데 계산 상으로 근이 정수가 안 나오게 돼서 기각
(참고로 o1-pro가 아니라 그냥 o1은 이 부분에서 근이 정수가 안 나왔는데도 그냥 답으로 제출해서 틀림)
이후 정수근을 어떻게 가져야 문제 조건을 만족하게 될지 8분 동안 생각함
f'의 부호까지 고려해서 근의 범위 구하고, 문제 조건 만족하기 위해서 근이 0~1 근처에 있어야 한다는 걸 (정확히는 아니지만) 유추해냄.
아마 풀이과정에 이것까지 다 적기에는 너무 난잡해져서 그냥 생략한 듯함.
아무튼 뜬금없이 찍어서 맞춘 것은 아니고, 문제 조건 전부 고려해서 근의 위치를 적절히 추론해냄
텍스트로만 소통하고 있는 거라 확실하진 않지만, 멀티모달이라 그런지 그래프 개형 추론도 이제 어느 정도 하는 듯함.
22번 정답 : 483
o1 제출 : 800021/1728 (오답, 6분 14초)
o1 pro 제출 : 483 (정답,10분 9초)
------------------------------------------------------------------------------------
25수능 수학(미적) 기준 준킬러/킬러 문제들 o1-pro는 다 맞추고(사실상 만점), o1은 3문제 틀림.
특히 찍어서 맞추거나 불필요한 과정이 많지도 않았고, 딱 핵심만 파악해서 완벽하게 품.
다른 문제들도 이제 멀티모달 되니까 그냥 캡처해서 시키면 되긴 하는데,
솔직히 이 문제들 풀이과정까지 완벽하게 맞출 정도면 다른 문제들은 그냥 맞출 확률 99%라 안 해봐도 된다고 생각함
내가 하긴 귀찮으니 다른 특붕이들이 해보거나 나중에 뉴스 뜨면 보셈ㄱㄱ
수학문제들 테스트해보고 나서 느낀 점은,
솔직히 9월달에 처음 o1 나오고 처음 테스트했을 때도 신세계였는데, 불과 2개월만에 이 정도 발전한 것도 ㄹㅇ놀라움
물론 수능문제 따위는 최전선 수학 연구 주제에 비하면 아무것도 아니긴 하지만, 일단 발전속도가 말도 안됨
단순 언어모델만으로 이 정도 추론까지 할 수 있다는 게 진짜 신기하고,
언어모델이 이 정도인데 구글의 AlphaGeometry 같은 것도 있다는 걸 고려해보면
수학/과학 쪽에서도 인간 최상위권을 따라잡는데 오래 걸리지 않을 것이라고 보는 게 맞을 듯
그리고 o1-preview에서 o1-pro로 바뀌면서 사실 제일 크게 달라진 건 의외로 추론 시간인 것 같음
o1-preview나 o1에서는 문제 풀다가 좀 막힌다 싶으면 어? 안되네 하고 대충 검토도 안 해보고 제출해버리거나
구한 답이 문제 상황과 일치하는지 생각하는 과정이 부족했고 그래서 오답이 나오는 경우가 제일 많았는데,
o1-pro는 일단 자기가 계산한 게 맞는지 철저히 검토해보면서 오답을 최소한 줄이고,
메타적으로도 자신이 생각하고 있는 상황이 문제 상황과 일치하는지 계속해서 생각해보는 느낌이었음.
결국 "환각"이라는 것도 내부 검증 시간이 부족한 게 문제지, 검증 모델이 정확하고 검증 시간만 충분히 주어진다면
환각은 충분히 해결 가능할 거라는 생각도 들었음. 괜히 Scaling 법칙이 아직까지 유효하다고 하는 게 아닌 듯함
이제 수능 수학은 사실상 정복됐으니, 이후 더 어려운 학부/석박 과정 수학문제들도 종종 풀려볼 예정임
세줄 요약:
1. o1-pro 2025 수능 수학 준킬러/킬러 모두 정답, 24 수능 22번도 정답
2. 추론 능력 떡상, 연산 시간 늘리면서 오답 낼 확률 현저히 적어짐
3. 특이점은 온다
10분 추론 레전드노... 잘봤다!
수능수학중에서 제일 악랄한 문제인 17년도 가형30도 가능?
그건 이미 o1-preview 나왔을 때 풀음 ㅋㅋㅋ 그래프 개형 추론 해야되는 문제인데도 그냥 계산으로도 풀 수 있는 문제라서 그런지 잘 풀더라
다들 수고했다
내년엔 굳건한 선형충조차 타락점이 온다
수학도 영어와 한국어 성능 차이 큰가
이제 수능출제위원들 문제 만들기 쉬워질듯 ㅋㅋ
정보추
프로는 확실히 잘 풀긴 하네
앞으로 12일간 실베 방어전 엄청 해야할 것 같다
아.
어림없지 실베추다 ㅋㅋㅋ
무.리
수능 스타일에 대해서는 슬슬 검증 끝나가는 건가? 중국인도 대입시험, 일본 본고사, 퍼트남 등 경시대회, 수올, 학부(연대 이상), 석박까지 합치면 수학도 컨텐츠 진짜 많긴 해
저작권 때문에 올리지는 못하겠지만 난 사설모의고사 ㅈㄴ게 돌려볼라고
생각해보니 Putnam 이 있었네ㅋㅋㅋ 풀릴 거 아직토 ㅈㄴ많네
찾아보면 다른국가 특붕이들도 시험 돌려봤을듯? 레딧 애들도 sat돌려보니까
진짜 신기하네
미친시발
글쓴게이도 존나게똑똑하노...
영어로 해야만 하는 건 아쉽긴 하다. 근데 지리긴 지린다
게임오바
응우옌 푸엉딱 : 오 특갤에 재밌는거 올라왔네? 이런건 같이봐야지
저번 시험에서 4등급 맞던거 생각하면 가슴이 웅장해진다.
게임오바.
시발 다들 수고했다
외계인이 알려준 듯
지능을 가장 중요시한다면 힘든 삶을 보내게 될 것 -일리야 수츠케버-
o1pro는 진짜 뒤지게 똑똑하네...
이거 다 분석하고 평가한 원글 실력도 대단하시네요
노베 학생은 저거 보고 추론과정 배우게 해봐도 될 듯? 과외비용으로 사용료는 뽑겠다.