연구원인데 살짝 난이도 있는 연구 결과 해석을 위해 gpt o1, 2.5 프로, 그록 씽킹에 동일한 질문으로 물어 봤음.
그록 나름 이공계 관련한 거 잘했었는데 이 문제에서는 첫번째, 두번째 답변 둘다 헛다리 짚기 시작해서 그냥 탈락. 한국어라 그런가? 아니면 멍청해졌나?
2.5프로랑 o1은 막상 막하이고 2.5프로가 더 나은 답변들도 살짝 있었음. 근데 결국 결정적인 포인트는 o1이 잡았음.
물론 2.5프로가 가성비, 컨텍스트 길이, 속도, 멀티모달 능력 다 압도적이라 2.5프로가 우위지만 '지능'자체는 o1보다도 똑똑하다고 보기는 어렵다고 보임.
[일반] o1이 2.5 프로보다 지능은 약간 높다는 느낌? (이공계 관련 질문)
qtwk(outrage3078)
2025-03-27 20:28:00
추천 1
댓글 18
다른 게시글
-
구글링은 이제 거의 안하게 되는듯
[3][일반] 익명(218.209) | 25.03.27추천 0 -
챗지피티 그림 달라하면 기다리라 하는거
[1][일반] 익명(7d9a3sp6c9rc) | 25.03.27추천 0 -
구글 제미나이 홍보는 삼성 언팩에서나 본듯
[일반] 콜라조무사(tkatjdrhdghkrnr123) | 25.03.27추천 0 -
2.5 프로 머리는 좋은데 기억력은 그닥인듯
[7][일반] 익명(125.128) | 25.03.27추천 0 -
대학을 계속 다닐 지 말 지 고민임
[12][일반] 익명(175.215) | 25.03.27추천 0 -
oai 제미나이 그록 클로드 고객수 차이가 얼마나대지?
[1][일반] dd(rladmstn78) | 25.03.27추천 0 -
근데 ㄹㅇ 이런 것도 그린다는게 신기하긴하네
[1][일반] 익명(chin6807) | 25.03.27추천 0 -
이미지 생성하다가 끝까지 못만들고 흐려지는 건 뭐지.
[일반] 익명(116.35) | 25.03.27추천 0 -
난 유튜브 쇼츠때 구글 마케팅을 본 사람임
[일반] 익명(112.121) | 25.03.27추천 1 -
잼민이 2.5 pro는 심층 리서치 기능 없어?
[1][일반] 익명(220.93) | 25.03.27추천 0
o1이 퍼즐 매우 잘푸는거보니까 추론을 더 오래해서 그런듯
벤치는 2.5프로가 o1 pro도 딴다고 해서 2.5 프로도 많이 써봤는데 개인적으로는 o1보다도 실체감 지능은 살짝 아래로 느껴짐. 난 아직도 o1만한 추론 모델도 못봤다. 그록이 가끔씩 괜찮은 결과 줬었는데 뭔가 멍청해진 느낌? 그리고 그록은 역시 한글로 쓰면 안되는 거 같고.....
질문 해볼 수록 2.5프로는 답변은 길고 그럴 듯 한데 문제의 핵심은 살짝 비껴가고 있고, o1은 문제의 핵심을 정확히 짚고 있음.
억까
걍 대놓고 2.5 pro가 더 낫던데
일단 내가 질문하는 주제들에 대해서는 그렇다. 검색이 많이 필요한 주제에 대해서는 2.5프로가 나을 수도 있어. 그리고 컨텍스트 길이가 요구되는 작업에 있어서도 2.5프로가 나을 수도 있고..... 근데 지금 내가 하고 있는 실험 결과 해석 관련해서는 o1이 훨씬 핵심을 잘 짚었다. 둘이 완전히 동일한 질문으로 5개씩 던졌고, 2.5프로는 점점 핵심을 좀 비껴가는데 o1은 핵심을 정확히 잡고 결국 o1의 답변으로 문제 거의 해결했음.
그러냐 대학원 물리학(양자장론) 물어보는데 걍 훨씬 낫던데 뭐 분야마다 차이는 있을 수 있지
아 대학원 수준 물리학 물어봤어? 그럼 니가 나보다 더 어려운 거 물어본거긴 함. 그럼 2.5프로가 더 지식은 깊고 많다고 봐야 하네. 근데 o1은 뭔가 '알잘딱'이 더 잘되는 느낌(인비저블 썸씽?)이 있음.
내가 물어본 건 공학 쪽인데 내용 자체는 아주 어려운 건 아닌데 specific한 응용이라 교과서나 논문에 제대로 나와있지도 않은 open problem임. 업무용으로 난 많이 쓰는데 closed problem이나 지식물어보는건 o1이 다른 추론 모델보다 딸릴 수도 있는데 open problem은 타 추론 모델보다 약간 더 낫다는 느낌임.
꼭 대학원 물리가 더 어렵진 않음 ai는 생소한 분야를 어려워 하더라 데이터가 적어서 그런가봄
연구 하는 입장에서 o1 체감이 타 추론모델 보다 조금 더 낫게 느껴짐. 느낌이라고 하기에는 사례가 좀 있음. 벤치는 o1이 낮겠지만....
o3mh같은 건 벤치 점수는 높은데 막상 써보면 실체감 성능은 훨씬 낮음. 그래서 벤치 점수가 다는 아닌 듯 함.
o3mh는 수학은 확실히 잘하던데 2.5 pro가 더 잘하긴 하지만
근데 언어 능력이 딸려서 실제 연구 현장에서의 내용 물어보면 말귀를 잘 못알아 먹고 이상한 소리를 자꾸함. 실제 현장에서 부딪히는 문제들은 학교에서 배우는 문제들 처럼 깔끔하게 조건이 정의 되있는 게 아니라 그런 빈틈을 알아서 메워야 하는데 o3mh는 딱 조건이 정해진 경우에만 문제를 잘품. 2.5프로도 내가 고민했던 실험 결과로 물어보면서 느끼는 건데 문제에 대해 제대로 이해를 못하고 있음. 실제 문제들은 학교에서 배우는 문제와 달리 우리가 알고 있는 조건과 정보가 제한적이고 그걸 바탕으로 하나씩 추정해나가는 거거든. 2.5프로 답변 보니까 '그 비워진 부분'에 대해 제대로 파악을 못하고 딴 소리 함. '그 비워진 부분'을 파악해낸게 o1 밖에 없음. 그냥 문제 풀이 실력 자체는 o1이 딸려도....
그래서 내가 연구 현장에 쓰면서 실체감 하는게 o1>2.5프로인 이유임. 2.5프로도 어제 나오고 나서 거의 이틀 내내 써봤는데 확실히 o1보다 이런 점에서 밀려...교과서에 나오는 전형적인 현상과 패턴에서 살짝 벗어나있는 실험결과인데 2.5프로는 완전 해석을 엉뚱하게 하고 있음. o1은 꽤 정확하게 교과서의 내용과 실험결과의 괴리가 어디서 오는지 잡아냈고... 이런건 단순이 답 정해진 문제 푸는 거랑은 좀 다름.
참고로 프롬프트는 둘다 완전히 똑같이 넣었음. 이제 질문 한 20개씩 던져 봤는데 퀄리티 차이 꽤 난다.
글쎄다.. 모든 벤치에서(당연히 외부 벤치 포함) o1은 커녕 o1 pro보다 유의미하게 높고 나도 체감되는데 단순히 물어본 분야가 마이너해서 데이터에 적게 포함된걸수도 있어보임
수학은 o1, o3mh 보다는 확실히 잘함. 답도 2.5가 잘 내는 건 물론이고 o3mh랑 서로 복붙해가면서 토론시켜 보면 결국 일방적으로 2.5가 가르쳐주는 입장 됨.