Where’s my ten minute AGI?



저자: About | Anson Ho - EpochAI







최근, METR은 AI가 수행할 수 있는 작업의 길이가 7달마다 2배씩 늘어난다는 논문을 발표했다.


이 그래프에선 평균 50%의 정확도로 얼마나 긴 작업을 수행할 수 있는지 보여준다.



21b8de21f1da75a968f2c2b405da3770b98d471acb26017263737de3b72e3aca88b4




하지만 여기엔 큰 문제가 있는데, 정말 AI가 1시간이 걸릴 일을 할 수 있다면, 왜 AI는 현실 세계 직업을 대체하는 것을 보지 못할까? 예를 들어, 이메일을 쓰는 것은 1시간 이내로 걸리는 일이지만, 아직도 이 작업은 세계 사람들의 일상에서 중요한 일을 차지한다. 



물론 일부는 사람들이 AI를 적게 사용해서 일수도 있지만, 나는 AI시스템의 근본적인 능력에 대한 내용에 집중하려고 한다.

특히 


1. 'AI 작업 시간 측정'은 매우 분야 제한적이다.


2. 작업 요구 정확도 수준이 벤치마크를 크게 좌우한다.


3. 현실의 작업은 서로 연결되어 있어 따로 분리하기 매우 어렵다.





1. 'AI 작업 시간 측정'은 매우 분야 제한적이다.





'AI 작업 시간 측정'은 (HCAST, RE-Bench, SWAA Suit)의 세 가지 벤치마크로 측정되었는데, 이 모두는 매우 소프트웨어 중심적이다. 그러나 다른 작업으로 시야를 넓힌다면, 이보다 더 시간이 적거나 많이 걸리는 작업을 수행하는 AI를 찾는 것은 어렵지 않다.




예를 들어, Tamay Besiroglu는 1990년대의 체스 컴퓨터는 몇 시간에서 몇 일이 걸리는 일을 하고 있다고 봐도 무방하다고 주장했다. 




게다가 이러한 '작업 시간 측정' 벤치마크가 얼마나 현실 세계의 작업 대체를 예측할 수 있는지 나타내지 못한다. 

미국에서 원격근무가 차지하는 비율은 미국 경제의 약 35%를 차지하고, 이 중 극히 작은 부분만이 소프트웨어와 관련된 작업이다. 이것은 '작업 시간 측정'이 현실의 작업을 대표하지 못한다는 것을 보여주는 극히 작은 예시이다.




소프트웨어 작업에서도 비슷한 한계가 드러난다. OSWorld 벤치마크는 여러가지 간단한 컴퓨터 사용 능력을 측정한다. 평범한 인간은 평균 112초로 73%의 정확도를 달성하지만, 현재 SOTA모델은 시간과 관계없이 정확도 40%를 겨우 넘는 정도이다. 




2. 작업 요구 정확도 수준이 벤치마크를 크게 좌우한다.




METR의 논문은 50%의 정확도로 1시간이 걸릴 일을 할 수 있다고 주장하지만, 요구되는 정확도를 높이면 어떤 일이 벌어질까?



METR의 평가 방법은 각 AI모델이 수행할 수 있는 작업을 인간이 하는 작업 속도와 시그모이드 함수에 대응시켜 시간을 측정하는 방식이다. 그리고 나서 AI모델의 50% 정확도라는 특정한 조건을 작업 시간과 대칭시켰다.



같은 시그모이드 함수 모델에서 80%의 정확도를 요구시켰을 경우 1시간 작업을 할 수 있었던 것이 15분으로 줄어들었다 (현실 작업에서 요구되는 정확도는 95% 이상이다. 자율주행 자동차를 생각해 봐라). 99%의 정확도를 요구한 경우 1분 미만으로 줄어들었다.



AI모델을 인간과 비교해 평가할땐 정확도도 같이 측정해야 한다.  물론 인간도 작업에 요구되는 시간이 길 수록 정확도가 떨어지긴 한다. 평범한 인간이 4초가 걸리는 직업은 100%의 정확도로 해내지만, 1시간이 걸리는 일은 50%로 떨어진다. 



하지만 인간이 실패하는 작업은 AI가 실패하는 이유와 다르다. 작업에 필요한 인간 평가 대상의 전문성이 떨어지거나, 평가가 지루해서 도중에 포기하는 경우가 대부분이었다. 



이 모든 것을 고려했을때, 정확도가 벤치마크 점수를 좌우한다는 것은 확실하다.




3. 현실의 작업은 서로 연결되어 있어 따로 분리하기 매우 어렵다. 




METR 논문 벤치의 분야 제한을 떠나, 평가 작업들은 추가적인 배경정보를 요구하지 않았다. 이것은 소프트웨어에 한정한다고 해도 현실 세계의 작업과는 매우 동떨어졌다.



AI연구원 Ajeya Cotra가 이 문제를 매우 간결하게 지적했다. 




   "캡슐화된 벤치마크들(RE-Bench, SWE-Bench, Cybench)은 아무것도 보여주지 않는다. 현실 세계의 작업을 그런 방식으로 캡슐화할 이유조차 없으며, 현실 작업들을 캡슐화해 AI에게 맡기기도 쉽지 않다."




이것이 왜 LLM은 인간보다 빠르게 그럴듯한 글을 쓸 수 있지만, 이메일 작업조차 대체하지 못하는지에 대한 이유이다. 우리가 이메일을 쓸 때 무엇을 고려하는지 생각해본다면 더 명확해진다. 이것은 내가 작년에 받았든 이메일들의 일부이다.



  • 구직 이메일 - AI는 내가 이 일에 관심있는지 모름 / AI는 내 스케줄을 모름 


  • 프로젝트에 대한 메일 - AI는 우리가 과거 어떤 대화를 나눴는지 모름(프로젝트에 대한 디테일들)


  • 작업에 대한 피드백 요구 메일 - AI는 이 작업에 대한 전문성이 없음


  • EpochAI의 일에 관심있는 사람들에 대한 조언 - AI는 EpochAI에서 일하는 사람들에 대한 배경지식이 없음 / 내부 연구 내용을 모름



대부분은 1) AI는 배경 데이터나 정보가 없음 2) 나의 요구사항을 이해하지 못함 으로 귀결된다. 게다가 AI 시스템은 모든 배경정보와 데이터를 제공함에도 작업을 성공적으로 해내지 못하는 경우가 있다는 것이다. 



만약 정말로 이메일을 자동화하고 싶다면 - AI가 내 스케줄에 접속 가능토록 하고, 모든 사람들과 나눴던 대화를 제공하고, 모든 사람들의 대화 선호 방식과 대화 상황을, 모든 관심사를 제공해야 할 것이다 (매번 업데이트해야 하는 복잡함과 프라이버시 이슈를 무시한다면).



이것은 하나의 독립된 예시가 아니다. 이러한 상황은 모든 현실 작업에 적용되는 범용적인 문제이다.




토론




이것은 지금까지의 AI 벤치마크에 해당하는 문제의 일부일 뿐이다. 왜 AI 벤치마크는 현실 세계 작업을 대변하지 못할까? 이는 역사적으로 일어났던 일이며 이에 대해 글을 쓴 적이 있다. 그리고 이번엔 이 한계가 현재와 미래에도 적용될 이유 세 가지를 다뤘다.



안타깝게도 트위터상에서 'AI 작업 시간 측정' 평가를 믿는 사람들을 보았지만, 나는 METR의 연구자들마저 "AI가 인간이 1시간 걸릴 일을 해내고 있다."는 주장을 진지하게 받아들이고 있다고 생각하지 않는다. 하지만 METR이 AI의 능력이 7개월마다 2배로 증가한다는 증거를 포착한 것은 긍정적으로 평가한다.



AI 벤치마크의 한계와 'AI 작업 시간 측정' 평가를 이해하는 것은 미래 AI의 능력을 정확히 평가하는데 있어 중요하다.
예를 들어,  'AI 2027 report'(2027년 AGI가 등장하며 모든 AI개발이 AI로 대체된다는 예측)의 예측은 'AI 작업 시간 측정' 평가를 토대로 작성되었다. 이러한 벤치마크들의 한계가 바로 일부 AI연구원들이 'AI 2027 report'에 동의하지 않으며 더 긴 AGI타임라인을 갖고 있는 이유이다. 


그리고 이것은 모든 이야기를 포착하지 않는다 - AI연구에 있어 "연구 컴퓨팅"이 병목이 되고 있다는 점도 중요하다.



하지만 이러한 한계가 주는 시사점도 흥미롭다. 현실 세계의 작업은 얼마나 배경 지식에 의존적일까? 얼마나 AI가 관련 배경 지식에 접근하는 것이 어려울까? 얼마나 많은 사람들이 AI에게 작업을 맡길까? 등등.



위 질문들에 대한 답을 얻는데 내가 위에 나열한 병목 문제가 도움이 되길 바란다. 이는 얻기 어려운 방대한 경험적 증거가 필요할지 모른다. 하지만 또한 AI 벤치마크와 현실 세계 작업의 차이를 이해하는데 도움이 될 것이다.