추론 지표는 다른 모델에 비해 압도적인건 preview랑 mini부터 그랬었는데
그러기엔 수학 지표(mathematics) 는 1206보다 낮고 다른 모델들과 엇비슷함
코딩은 뭐....그렇다 치고 데이터 분석 지표(data analysis) 도 오히려 preview보다 낮아지고 다른 모델들과도 엇비슷
추론을 잘하는데 수학이랑 코딩이랑 데이터분석에서 큰 우위를 점하지 못한다? 뭔가 모순적이라고 봄. 트위터에서도 이 부분을 지적하는 여론이 있기도 하고 ㅇㅇ
특히 코딩 지표는 대부분 코드 중간중간에 공백을 내서 여기에 들어갈 코드가 뭔지를 맞추는 형식으로 측정하고, 전체 코드의 흐름이랑 작동 방식을 정확하게 이해하고 추론할 수 있어야 높은 점수를 받을 수 있음.
그리고 데이터 분석 또한 추론 성능의 유무가 지배적이고.
그냥 조금 과장되게 말하면 reasoning average 항목에 과적합된 파인튜닝 모델로밖에 안보임. 다른 항목은 그렇다 치고 추론이 강점이라면 그에 해당하는 지표에서도 의미있는 수치를 보여줘야 한다고 생각함.
(global average는 전체 평균이니까 reasoning average가 평균을 엄청 끌어올려서 높게 측정된거고)
- dc official App
수학 지표는 솔직히 안 믿음 , gemini 1206 수학 이 저정도로 압도적 1황이냐 하면 아니거든 다른 수학 벤치 찾아보면 o1이 압도적일거임
과적합은 데이터를 학습에 써야 과적합이란게 가능하고 라이브벤치는 문제가 매달 업데이트 되는 데 어케 과적합이 되노..
데이터 자체에 과적합이 되었다기보단 reasoning 측정 방식에 과적합이 되었을 수도 있다는거임. 자세한건 뭔지 모르겠지만 - dc App
그런 건 시스템2 사고 방식으로는 아무 상관이 없음
정답 유출이 아니잖아
ㄴ 자세한건 뭔지 모르겠지만 >> 그냥 모른다 >> 모르면 아는 척 하지 말자
일반적인 추론 성능이 올라갔다는 사실과 반대로 특정 지표에서만 의미있는 결과가 나오니까 당연히 의심해보는거지...나도 확실한 이유가 뭔지 알겠냐...나도 o1 응원한다 게이야 - dc App
벤치가 수학성능을 반영 못하는 것 같은데
https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=587888&s_type=search_subject_memo&s_keyword=%EB%82%98%EC%82%AC&page=1
이건 프로 모델이라서 라이브벤치에 프로모델이 올라오는걸 봐야할듯 - dc App
그럼 일반 o1에는 뭔가 락을 걸어두었나본데?
특갤에선 o1 수능 수학 문제 잘푸는거보고 찬양했는데 정작 벤치에선 수학,코딩 점수 낮게나오네 뭐가 맞는거냐 - dc App
코딩은 애초에 소넷보다 구렸음 1217 업데이트로 비슷해진거고
지능 과 얼마나 배웠냐는 다른영역아님? 높아진 추론능력으로 수많은 코딩예제를 학습해야지만이 상승하는 지표잖아 저건
OAI 측에서 모델자체의 추론지능만 상승시킨거고 높아진 추론지능으로 다른공부는 안시킨거임
let's verify step by step 논문을 봐도 알겠지만 추론 능력을 학습시킬때 사용하는 과정-결과 데이터들이 코딩 데이터랑 수학 데이터임 - dc App
거기 논문에서는 코딩은 학습 안시켰는데? 오히려 네 주장과 반대로 수학만 학습시켰는데 생물학,물리,화학 같은 분야에서도 성능이 올랏다고 함
수학을 위해 수학을 배우는것과 지능을 위해 해당학문의 풀이과정이 담긴 추론예제를 학습시키는건 다른거임
그러니까 지능을 상승시키기 위해 수많은 문제를 풀도록 시켰고 그 풀이과정 자체를 학습시켜서 추론에 대한 휴리스틱 (추론 패턴) 을 익힌거지 이 학습 과정자체는 그 학문에 대한 폭발적인 벤치상승을 가능하게 만드는건 아님 더 복잡한 추론 휴리스틱 (추론 지능) 을 가짐으로써 특정학문을 학습하고 이해하는데에 필요한 지능이 갖춰졌을뿐임
이렇게 단련된 추론지능으로 그 영역의 문제의 기초부터 보여준뒤 이게 뭘 말하는지 인공지능 자체가 이해해야함 그 이해한것을 다시 학습시켜서 '지식을 내재화' 시켜야 니가 말하는 다른영역의 벤치가 상승하는거고 물론 추론예제만으로도 다른영역에서의 벤치상승은 가능한 영역이지만 폭발적이게 상승시킬 순 없음
와 근데 분석 잘한다