머숨 미러

1ebec223e0dc2bae61abe9e74683706cbf0ac4ce208ffb7f60af04bbe7ab8d31a10822d678a1b2fb368404

1ebec223e0dc2bae61abe9e74683706cbf0ac4ce208ff87265aa04bbe7ab8d31359bfb9db6ab4da6547a

1ebec223e0dc2bae61abe9e74683706cbf0ac4ce208ff87264ae04bbe7ab8d31a619747fad6d454630a2

1ebec223e0dc2bae61abe9e74683706cbf0ac4ce208ff87d66ab04bbe7ab8d31bcd32bd5e3beb9e0d31b

-o1 포함 모든 프론티어 모델의 정답률 2% 미만

-교수, IMO 문제 개발자, 필즈상 메달리스트 등 60명 이상의 수학자와 만든 벤치마크

-테렌스 타오도 개추박음

-샘플 문제 제외하고 모든 문제 비공개로 평가, 벤치마크 오염 문제 해소

-현대 수학의 여러 분야에 걸친 문제들

-해당 분야의 전문 수학자가 해결하는데 몇 시간, 또는 몇 일이 걸리는 문제

https://epochai.org/frontiermath

FrontierMath

FrontierMath

epochai.org

- dc official App

저거 내년에 나올 모델이 70%이상 달성 가능할려나

익명(sky0204) 2024-11-09 07:24:00

제미니 수학 잘함??

익명(mode1667) 2024-11-09 07:24:00

와 끝판왕이네. 저거까지 깨면 수학은 적어도 인류 총합 이상이라는 칭호 얻을 수 있을듯 - dc App

익명(125.182) 2024-11-09 07:28:00

답글

ㄴㄴ 인류총합 이상이 되려면 ASI인데 밀레니엄 난제를 풀어줘야지

익명(116.36) 2024-11-09 11:31:00

답글

총합 이상은 힘들고 가장 뛰어난 수학자는 ai다 정도 가능하겠지

익명(8pbw5yfa5kmd) 2024-11-09 11:32:00

제미나이 수학잘하나보네

chatgpt4o(ejrtksfl2) 2024-11-09 07:30:00

인공지능 특화 수학 벤치마크네

익명(112.161) 2024-11-09 07:43:00

2%면 아직은 소소하네 내년엔 무섭게 커있을듯

익명(amazonia) 2024-11-09 08:07:00

결국 학습한 것 이상은 뱉을수 없는것을 증명한것인가

익명(1.248) 2024-11-09 08:10:00

답글

그나마 논문보니 AI가 풀 수 있었던 문제 4개를 각 모델들한테 5번씩 풀수 있는 기회를 줬을 때 o1 preview가 다른 모델들보다는 확실히 잘 했다고 함. 그리고 지금은 토큰 제한도 둔 상태로 평가한거라 추후엔 토큰 제한 더 널널히해서 오래 생각할 수 있게 할거라네 - dc App

익명(121.178) 2024-11-09 08:12:00

2025~2026

특술람(gpt2030) 2024-11-09 08:29:00

그래 이런 문제가 풀리기 시작하면 AGI가 도래했다고 말할 수 있을듯

익명(118.6) 2024-11-09 08:54:00

잘한다는거야 못한다는 거야

익명(qpalzm0147) 2024-11-09 09:11:00

답글

못 - dc App

익명(121.178) 2024-11-09 09:11:00

싹다 포화시켜

익명(110.10) 2024-11-09 09:20:00

벤치마크 문제에 풀지 말라고 리만 가설도 넣어놨는데 ai가 그냥 좀 어려운 문제인 줄 알고 풀어버리면 재미있겠다

익명(220.117) 2024-11-09 09:25:00

잼민이 1등인건 좀 신뢰도 떨어지네

익명(every8462) 2024-11-09 10:03:00

답글

그래봐야 2퍼 1퍼라 그냥 또이또이임 ㅋㅋ - dc App

익명(121.178) 2024-11-09 10:04:00

답글

솔직히 지금은 딱히 등수가 안 중요함 그냥 지금 인공은 다 정답률이 이렇더라 그거지 측정으로 쓰기엔 너무 어려움 문제가

익명(175.199) 2024-11-09 13:01:00

ㅇㄷ

ㅇㅇㅇㅇㅇ(lsh0320jpgpw) 2024-11-09 10:39:00

“내년에 모든 벤치를 포화시킬 것” - 게트만 - dc App

초존도초(htr3c654r6ft) 2024-11-09 10:51:00

과연 똥트만의 벤치 정상화는 이 벤치도 정상화시킬 수 있을것인가

익명(8pbw5yfa5kmd) 2024-11-09 11:31:00

알파고처럼 정답을 찾을것임

익명(perform4782) 2024-11-09 12:04:00

내년에 나오는 모델이 저거 90% 정답률 찍고 인류 수학의 대표자로서 좌절한 테렌스 타오는 알몸도개자를 시전하는데..

시간정지용사(thor2018) 2024-11-09 12:50:00

답글

테렌스 타오는 시간 제한 없으면, 저거 100% 찍을 수 있지 않나?

익명(cideraction) 2024-11-09 13:01:00

답글

100년 동안 풀면 다 풀겠지 ㅇㅇ

시간정지용사(thor2018) 2024-11-09 13:02:00

답글

시간이 무한이면 원숭이도 다 풀음

익명(58.29) 2024-11-09 16:37:00

답글

원숭이가 풀수있는거 확실함? ㅋㅋㅋㅋㅋ 원숭이는 풀려는 의지 자체가 없을거같은데?

익명(180.224) 2024-11-10 15:05:00

답글

테렌스타오도 저거 다는 못풀어

XI(musician3372) 2024-11-11 17:17:00

제미나이는 미네르바 짬밥이 있어서 잘푸는듯

한입두입(shanny6706) 2024-11-09 19:50:00

와 오답률도 아니고 정답률이 ㅋㅋ

익명(121.174) 2024-11-10 06:07:00

저걸 "다" 푸는건 테렌스 타오도 못함 저거 다풀면 적어도 수학에선 모든 인간을 넘어섰다고 볼수있은ㆍ듯

XI(musician3372) 2024-11-11 17:16:00

[📪정보] 정답률 2% 미만, FrontierMath 벤치마크 공개

댓글 32

[📪정보] 정답률 2% 미만, FrontierMath 벤치마크 공개

댓글 32

다른 게시글

알트만 대놓고 25년 agi ㄷㄷ

다이슨 스피어 가능하면 완몰가그냥바로가능할텐데

다이슨 스피어? 알트만미쳤음? 갑자기 10단계이상뛰는거머임?

알트만 ai 구동을 위해 핵융합이 아니라 다이슨 스피어 얘기가 나올것ㄷㄷ

Agi 나오면 임금 상승될까?

아무리 알트만이라도 내년에 AGI가 나온다는건

2025 agi는 지켜지지 않아도 됨

알트만은 아가리 털고 안 보여준 적 없다

알트만이 명확하게 2025 AGI라고 말한 건

이글 무조건 박제 해놨다 짜르지 마라