https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=673243&search_head=100&page=1
LLM에게 뇌풀기 문제 시켜보기 (feat. 문제적남자)
심심해서 LLM 모델별로 뇌 풀기 문제 풀이를 시켜봄출처 : https://www.youtube.com/watch?v=s8wFBy7LeCA&t=430s문제적 남자 69회 (챔피언십 2탄)님들도 한 번 풀어보고정
gall.dcinside.com
저번에 풀게 했던 문제
당시 결과는
완전히 오답 : o3-mini-high, Sonnet 3.7 thinking, Grok3 thinking, Gemini 2.0 flash tkinking
답은 맞았으나 풀이가 틀림 : o1
풀이도 답도 완벽함 : o1 pro
2.5 pro는 과연?
2.0 flash와 달리 다르게 숫자를 분해하며 접근하는 데까지는 성공했지만
이후에는 핵심을 파악하지 못하고
2.0 flash와 동일하게 25라는 오답을 내놓음
흠...
뭐야 왜 뜨거운 여름에 찬물 끼얹냐
접근 방식이랑 풀이 과정은 o3미하 소넷 그록보다 훨씬 좋았음 무료인거 감안하면 개쩌는거 맞음
글쿠나 신기하다
o1 프로가 저정도임?
저 문제를 출제 의도에 맞게 풀어낸건 o1 프로가 유일하긴 함
의외네
저런 케이스가 일반화가 될 정도로 많으면 벤치가 더 좋게 나오겠죠..
o1 pro가 지리긴함
https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=683713&page=1
푼거 아님?? 해설이 다른가
거의 맞긴 했는데 저 풀이대로면 7, 25, 52.... 답이 여러개가 됨 원래 정답은 각 행과 열에 0~9가 한 번씩 등장한다 였음
2.5 장점이 풀이과정이 논리력 ㅈ돼서 사소한찐빠 낸다해도 충분히 도움되는듯
나 저 프로그램 삼촌이 가르쳐줘서 알았는데 2015년 2월 그리고 약 반 년 후 (10월) 알파고와 이세돌의 대국 계획을 알렸고 1년 후에 알파고 등장 저 회차는 그 해 중반 쯤에 방영됐고 저 프로그램에서 많이 나오는 빈도 중에 하나가 숫자를 하나씩만 겹치지 않게 쓰는게 많이 나오는거 같더라고
이건 저 문제가 엄밀하지 않아서 생기는 문제같은데 오히려
해당 댓글은 삭제되었습니다.
푸는사람 입장에서 왜 알수없음? 다른 행과 열에 겹치는 숫자가 없는 걸 보면 알 수 있잖음
내가 지적하려고 했는데 이미 있었네 이게맞다 문제가 병신임 유일해를 주장하려면 적어도 답이 두자릿수가 되면 뭐가 먼저 와야된다는 법칙이라도 있어야하는데 그런것도 없고 나름의 규칙을 가지고 논리적으로 모순이 없는 답을 도출해냈으면 논리적으로 엄연한 정답이 맞는데 문제가 엄밀하지 못한데 내가 생각한 답만 맞다고 하는건 논리 위에서 수문장하는 병신짓
저정도면 맞춘거지