벤치글에 o1 pro는 다 빠져있네
[일반] 소넷3.5, o1 이랑 o1 pro 비교한 벤치는 없어?
익명(211.49)
2024-12-19 11:05:00
추천 0
댓글 8
다른 게시글
-
똑똑베리 스뜨로베리
[4][일반] Weisser_Ad..(adler1) | 24.12.19추천 0 -
전유물 걱정안된다
[1][일반] 익명(14.35) | 24.12.19추천 0 -
O1 Reasoning average 도약했노 ㅋㅋ
[4][일반] 익명(14.54) | 24.12.19추천 6 -
소넷 3.5 1022 python/shell코딩시 환각 아예 없는수준임?
[6][일반] 익명(landofooo) | 24.12.19추천 0 -
“韓 과학자 일냈다” AI로 바이러스 모방…
[1][일반] 익명(tuesday6564) | 24.12.19추천 1 -
혹시 정말 죽겠으면 단결된 민중의 힘으로 생존 쟁취하자는거
[5][일반] 익명(kimania5) | 24.12.19추천 0 -
o1프로 라이브 벤치는 점수가 몇 나올까
[1][일반] A.I.(sugary6707) | 24.12.19추천 0 -
중요한거 알아냈다
[2][일반] 익명(ancestor7224) | 24.12.19추천 0 -
o1 1217이 코딩에선 소넷 앞질렀나
[일반] 익명(landofooo) | 24.12.19추천 0 -
OpenAI: "우리가 개씨발 돌아왔다"
[3][일반] 익명(118.37) | 24.12.19추천 3
O1 pro api 안나옴
직접 질문하면서 수동으론 평가 못함?
ㅈㄴ 귀찮데 벤치 만든 사람이
pro는 별개의 모델이 아니라 o1 5개 정도 돌려서 그 중 제일 잘 나온 거 출력하는 거라는 얘기가 있던데
그럼 안되는데;
그런 개짜치는짓을 했겠음? TTC 더 개선한 버전이겠지
제일 잘 나왔다는 평가는 어떻게 하는데 ㅋㅋ 이 평가를 잘 한다는거 자체가 한 단계 위의 성능이란건데
단순히 잘 나왔다는 평가를 할 수 있다는거 자체가 LLM 의 본질 아니냐?