https://arxiv.org/abs/2305.06934
ChatGPT의 출시 이후 많은 연구들이 다양한 작업과 도메인에서 ChatGPT의 놀라운 성능을 강조하였으며, 때로는 인간의 능력을 능가하거나 초월하는 경우도 있었습니다. 그러나 이 논문은 컴퓨터 프로그래밍 분야에서 ChatGPT에 적합한 전형적인 작업에서 인간의 성능이 뛰어난 한 가지 사례를 보여주며 대조적인 관점을 제시합니다. 우리는 폭넓은 문제들과 다양한 복잡도를 가진 문제들로 구성된 권위 있는 연례 국제 프로그래밍 대회인 IEEExtreme Challenge 대회를 벤치마크로 사용합니다. 철저한 평가를 위해, 우리는 다섯 개의 다른 IEEExtreme 판본에서 추출한 102개의 다양한 도전 과제를 선정하고, Python, Java, C++ 세 가지 주요 프로그래밍 언어를 사용하여 실행하였습니다. 우리의 경험적 분석은 일반적인 생각과는 달리, 프로그래밍 문맥에서 문제 해결의 특정 측면에서 인간 프로그래머들이 ChatGPT보다 경쟁력이 있다는 증거를 제공합니다. 실제로, 우리는 IEEExtreme 프로그래밍 문제 집합에서 ChatGPT가 얻은 평균 점수가 프로그래밍 언어에 따라 인간의 평균 점수보다 3.9배에서 5.8배 낮다는 것을 발견하였습니다. 이 논문은 이러한 결과에 대해 자세히 설명하며, ChatGPT와 같은 AI 기반 언어 모델의 한계와 개선 가능한 영역에 대한 중요한 통찰력을 제공합니다.
댓글 0