머숨 미러

HalluHard : 최상위권에 웹서치물릴때 코딩에선 4.3까지 떨어짐

24b0d121e09c28a8699fe8b115ef046b6567993723

AA-Omniscience에선 라마 매버릭보다 안좋게 나옴

3699f103bcf31e8238f2f3e147f36969560675c74e90c0138571b3dd11826dcc2e2b6479821c9542927d4157e24f375a121b2edf03

짚은 왜케 뾰족한거야

익명(sekasantoide) 2026-03-08 15:28:00

이렇게까지 극단적으로 나뉜다고? 도대체 뭐지

익명(shore1232) 2026-03-08 15:28:00

코딩땐 아예 없는 수준이네 ㄷㄷ

익명(ratio5660) 2026-03-08 15:30:00

해석하자면 답이 있는건 답을 잘 말해주는데, 답이없는걸 물으면 어떻게든 짜잡기해서 답변한다 이건가

ㅇㅇ 1(219.251) 2026-03-08 15:31:00

행복한천국으로(adjust7431) 2026-03-08 15:31:00

모른다고 하기보단, 이런거 같습니다 같은 답을 많이 주는게 아닐까 벤치들도 개선의 여지가 있을 듯

익명(compact5711) 2026-03-08 15:33:00

답글

잼민이가 3.0까지는 그런 성향이라 환각 체감 안좋았던건데 5.4도 그런 느낌이 된걸지도

야하이잇(dignity123) 2026-03-08 15:37:00

답글

@야하이잇 이거도 세분화할 수 있는게, 당연하다는 듯이 답하는거랑 조심스럽게 이거일지도? 확인은 해봐야할 듯? 이렇게 갈릴 수 있는지라 어려운 듯 완전 최신이슈 상대로 답해서 인간 평가자가 보는 그런게 좀 필요할지도

익명(compact5711) 2026-03-08 15:39:00

답글

@ㅇㅇ 최신이슈 환각이랑 옛날 정보 환각을 분리할 필요가 있어보이긴함

야하이잇(dignity123) 2026-03-08 15:40:00

답글

@야하이잇 ㄹㅇ 환각벤치들 분발해야한다

익명(compact5711) 2026-03-08 15:40:00

이 답을 없는걸 짜집기하는게 미치긴 했음 얘가 낸 환각으로 지금 논문 씀;

일본에간대학원생(math4457) 2026-03-08 15:33:00

[일반] GPT-5.4 환각 벤치 극단적으로 나뉘는 중..jpg