HalluHard : 최상위권에 웹서치물릴때 코딩에선 4.3까지 떨어짐
AA-Omniscience에선 라마 매버릭보다 안좋게 나옴
짚은 왜케 뾰족한거야
이렇게까지 극단적으로 나뉜다고? 도대체 뭐지
코딩땐 아예 없는 수준이네 ㄷㄷ
해석하자면 답이 있는건 답을 잘 말해주는데, 답이없는걸 물으면 어떻게든 짜잡기해서 답변한다 이건가
모른다고 하기보단, 이런거 같습니다 같은 답을 많이 주는게 아닐까 벤치들도 개선의 여지가 있을 듯
잼민이가 3.0까지는 그런 성향이라 환각 체감 안좋았던건데 5.4도 그런 느낌이 된걸지도
@야하이잇 이거도 세분화할 수 있는게, 당연하다는 듯이 답하는거랑 조심스럽게 이거일지도? 확인은 해봐야할 듯? 이렇게 갈릴 수 있는지라 어려운 듯 완전 최신이슈 상대로 답해서 인간 평가자가 보는 그런게 좀 필요할지도
@ㅇㅇ 최신이슈 환각이랑 옛날 정보 환각을 분리할 필요가 있어보이긴함
@야하이잇 ㄹㅇ 환각벤치들 분발해야한다
이 답을 없는걸 짜집기하는게 미치긴 했음 얘가 낸 환각으로 지금 논문 씀;
짚은 왜케 뾰족한거야
이렇게까지 극단적으로 나뉜다고? 도대체 뭐지
코딩땐 아예 없는 수준이네 ㄷㄷ
해석하자면 답이 있는건 답을 잘 말해주는데, 답이없는걸 물으면 어떻게든 짜잡기해서 답변한다 이건가
모른다고 하기보단, 이런거 같습니다 같은 답을 많이 주는게 아닐까 벤치들도 개선의 여지가 있을 듯
잼민이가 3.0까지는 그런 성향이라 환각 체감 안좋았던건데 5.4도 그런 느낌이 된걸지도
@야하이잇 이거도 세분화할 수 있는게, 당연하다는 듯이 답하는거랑 조심스럽게 이거일지도? 확인은 해봐야할 듯? 이렇게 갈릴 수 있는지라 어려운 듯 완전 최신이슈 상대로 답해서 인간 평가자가 보는 그런게 좀 필요할지도
@ㅇㅇ 최신이슈 환각이랑 옛날 정보 환각을 분리할 필요가 있어보이긴함
@야하이잇 ㄹㅇ 환각벤치들 분발해야한다
이 답을 없는걸 짜집기하는게 미치긴 했음 얘가 낸 환각으로 지금 논문 씀;