머숨 미러

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=673243&search_head=100&page=1

LLM에게 뇌풀기 문제 시켜보기 (feat. 문제적남자)

심심해서 LLM 모델별로 뇌 풀기 문제 풀이를 시켜봄출처 : https://www.youtube.com/watch?v=s8wFBy7LeCA&t=430s문제적 남자 69회 (챔피언십 2탄)님들도 한 번 풀어보고정

gall.dcinside.com

7cea8474b6846bfe3aeb98a213d3341d5b62b8b082ca91292524

저번에 풀게 했던 문제

당시 결과는

완전히 오답 : o3-mini-high, Sonnet 3.7 thinking, Grok3 thinking, Gemini 2.0 flash tkinking

답은 맞았으나 풀이가 틀림 : o1

풀이도 답도 완벽함 : o1 pro

2.5 pro는 과연?

a04424ad2c06782ab47e5a67ee91766dc28ef1ecd0acc7cfbf13d2c75cd4d121846233968cf10f81442cc013b254

2.0 flash와 달리 다르게 숫자를 분해하며 접근하는 데까지는 성공했지만

a04424ad2c06782ab47e5a67ee91766dc28ef1ecd0acc7cfbf13d2c753d0d52112be07e6c3c6fce9a71da237217cb0

이후에는 핵심을 파악하지 못하고

2.0 flash와 동일하게 25라는 오답을 내놓음

흠...

뭐야 왜 뜨거운 여름에 찬물 끼얹냐

EXERCENS(exercens02) 2025-03-27 21:57:00

답글

접근 방식이랑 풀이 과정은 o3미하 소넷 그록보다 훨씬 좋았음 무료인거 감안하면 개쩌는거 맞음

S.C.H.A.L.E(affect9944) 2025-03-27 22:02:00

답글

글쿠나 신기하다

EXERCENS(exercens02) 2025-03-27 22:03:00

o1 프로가 저정도임?

ㅇㅇ 1(220.78) 2025-03-27 22:04:00

답글

저 문제를 출제 의도에 맞게 풀어낸건 o1 프로가 유일하긴 함

S.C.H.A.L.E(affect9944) 2025-03-27 22:09:00

의외네

ㅇㅇ 2(221.146) 2025-03-27 22:05:00

답글

S.C.H.A.L.E(affect9944) 2025-03-27 22:12:00

저런 케이스가 일반화가 될 정도로 많으면 벤치가 더 좋게 나오겠죠..

익명(allocate9032) 2025-03-27 22:09:00

답글

S.C.H.A.L.E(affect9944) 2025-03-27 22:19:00

익명(symphony5198) 2025-03-27 22:12:00

답글

S.C.H.A.L.E(affect9944) 2025-03-27 22:19:00

o1 pro가 지리긴함

ㅇㅇ 3(121.141) 2025-03-27 22:22:00

답글

S.C.H.A.L.E(affect9944) 2025-03-27 22:30:00

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=683713&page=1
푼거 아님?? 해설이 다른가

ㅁㄴㅇ(119.192) 2025-03-27 22:25:00

답글

거의 맞긴 했는데 저 풀이대로면 7, 25, 52.... 답이 여러개가 됨 원래 정답은 각 행과 열에 0~9가 한 번씩 등장한다 였음

S.C.H.A.L.E(affect9944) 2025-03-27 22:28:00

2.5 장점이 풀이과정이 논리력 ㅈ돼서 사소한찐빠 낸다해도 충분히 도움되는듯

ㅇㅇ 4(14.39) 2025-03-28 00:54:00

나 저 프로그램 삼촌이 가르쳐줘서 알았는데 2015년 2월 그리고 약 반 년 후 (10월) 알파고와 이세돌의 대국 계획을 알렸고 1년 후에 알파고 등장 저 회차는 그 해 중반 쯤에 방영됐고 저 프로그램에서 많이 나오는 빈도 중에 하나가 숫자를 하나씩만 겹치지 않게 쓰는게 많이 나오는거 같더라고

익명(220.119) 2025-03-28 02:14:00

이건 저 문제가 엄밀하지 않아서 생기는 문제같은데 오히려

익명(haircut2819) 2025-03-28 08:25:00

해당 댓글은 삭제되었습니다.

해당 댓글은 삭제되었습니다. 2026-06-26 01:22:12.443052

답글

푸는사람 입장에서 왜 알수없음? 다른 행과 열에 겹치는 숫자가 없는 걸 보면 알 수 있잖음

ㅇㅇ 6(49.142) 2025-03-28 17:29:00

답글

내가 지적하려고 했는데 이미 있었네 이게맞다 문제가 병신임 유일해를 주장하려면 적어도 답이 두자릿수가 되면 뭐가 먼저 와야된다는 법칙이라도 있어야하는데 그런것도 없고 나름의 규칙을 가지고 논리적으로 모순이 없는 답을 도출해냈으면 논리적으로 엄연한 정답이 맞는데 문제가 엄밀하지 못한데 내가 생각한 답만 맞다고 하는건 논리 위에서 수문장하는 병신짓

ㅇㅇ 7(122.45) 2025-03-28 20:32:00

저정도면 맞춘거지

ㅇㅇ 5(211.252) 2025-03-28 11:52:00

[일반] 잼민이 2.5 뇌풀기 문제 시켜봄

댓글 22

[일반] 잼민이 2.5 뇌풀기 문제 시켜봄

댓글 22

다른 게시글

기후 문제가 심각한 진짜 이유

Google이 진정한 "Open" AI다

이제는 AI활용력 = 경쟁력 인 시대임.

오 뭐여 4.5도 쓰니까 그림 그리기 시작함

왜케 내가쓰면 멍청하지

4o 이미지 <- 그림의 캐릭터 자세만 바꾸는거 가능?

GPT 움짤도 됨 ㄷㄷㄷ

제미나이 2.5 영상 스크립트 뽑아주는 게 개사기네

진짜 재미니 미치겄다 시바 ㅠㅠ..

아니 씻팔 잼미니 2.5프로 채팅창 나가면 채팅 다 사라지는거였냐