[일반] 소넷3.5, o1 이랑 o1 pro 비교한 벤치는 없어?

익명(211.49) 2024-12-19 11:05:00 추천 0

벤치글에 o1 pro는 다 빠져있네

O1 pro api 안나옴

익명(wanted7407) 2024-12-19 11:05:00
답글
직접 질문하면서 수동으론 평가 못함?

익명(211.49) 2024-12-19 11:08:00
답글
ㅈㄴ 귀찮데 벤치 만든 사람이

익명(wanted7407) 2024-12-19 11:09:00
pro는 별개의 모델이 아니라 o1 5개 정도 돌려서 그 중 제일 잘 나온 거 출력하는 거라는 얘기가 있던데

익명(121.132) 2024-12-19 11:07:00
답글
그럼 안되는데;

익명(211.49) 2024-12-19 11:08:00
답글
그런 개짜치는짓을 했겠음? TTC 더 개선한 버전이겠지

익명(shore1232) 2024-12-19 11:12:00
답글
제일 잘 나왔다는 평가는 어떻게 하는데 ㅋㅋ 이 평가를 잘 한다는거 자체가 한 단계 위의 성능이란건데

123(218.146) 2024-12-19 11:39:00
답글
단순히 잘 나왔다는 평가를 할 수 있다는거 자체가 LLM 의 본질 아니냐?

123(218.146) 2024-12-19 11:40:00

댓글 8