agieval 이라는 벤치마크 논문에서 gpt4의 제로샷과 퓨샷의 점수를 비교하고 있는데
전체적인 점수는 퓨삿이 근소하게 올랐는데
유독 math 부분에서 퓨샷이 점수가 폭락함 (왜 그런지는 모르겠음 ㅋ) 제로샷 cot에서는 47점이 나오는데 퓨샷에선 25.3이면 꽤 차이가 큰거
개인이 1 항목을 제대로 체크 하는것도 엄청 귀찮은 일인데 그 항목 하나하나 마저 전체적인 점수는 올랐는데 특정 부분에서 점수가 안나오는 경우도 꽤 흔하기 때문에
그냥 한두번 대화하고 똑똑해졌다 멍청해졌다 하는건 자제해야 함
개인 체1감은 대충 걸러들어야지...