2cb9c322e3c53db16bb9d2fb06df231dc90d5a4a5ebe4f458f93b2

agieval 이라는 벤치마크 논문에서 gpt4의  제로샷과 퓨샷의 점수를 비교하고 있는데 


전체적인 점수는 퓨삿이 근소하게 올랐는데 

유독 math 부분에서 퓨샷이 점수가 폭락함 (왜 그런지는 모르겠음 ㅋ) 제로샷 cot에서는 47점이 나오는데 퓨샷에선 25.3이면 꽤 차이가 큰거 


개인이 1 항목을 제대로 체크 하는것도 엄청 귀찮은 일인데 그 항목 하나하나 마저 전체적인 점수는 올랐는데 특정 부분에서 점수가 안나오는 경우도 꽤 흔하기 때문에 

그냥 한두번 대화하고 똑똑해졌다 멍청해졌다 하는건 자제해야 함