https://www.youtube.com/watch?v=sk6AfsF9QlM
AI, 인간을 넘어서다: 특이점은 언제 오는가?1. AI란 무엇인가? 튜링 테스트에서 시작된 질문발표자: 우리가 과연 인공지능이 인간만큼 좋아질 때까지 기다려야만 하는 걸까요? 그리고 '인간만큼 좋다'는 것은 도대체 무슨 의미일까요? 인간이 하는 모든 과업을 해내는 것, 혹은 그 이상을 의미하는 걸까요? 아니면 인간보다 '훨씬' 더 나아졌을 때 비로소 유용하다고 말해야 할까요?
이 질문들에 제대로 답하기 위해, 우리는 먼저 AI가 어떻게 탄생했는지 그 역사를 되짚어볼 필요가 있습니다. 왜 우리는 이것을 '인공지능'이라고 부를까요? 누가 처음 그렇게 정의했고, 우리는 그 말을 통해 무엇을 이해하고 있을까요? 우리는 곧 이 질문에 대한 수많은 다른 정의가 존재한다는 것을 알게 될 것입니다.
그리고 "언제부터 AI를 활용할 수 있는가?"라는 질문에 대한 답은, 결국 특정한 능력을 테스트하는 것에 있습니다. 즉, AI의 현재 유용성과 성능 한계를 파악하기 위해 어떤 테스트 방법들이 있는지 살펴보고, 이를 **인간의 기준선(Human Baseline)**과 비교해 볼 것입니다. 이 비교를 통해 우리는 'AI가 인간을 넘어서는(superhuman)' 시점이 고정된 날짜가 아니라, 계속해서 움직이는 유동적인 시점이라는 것을 알게 될 것입니다.
자, 그럼 먼저 "인공지능이란 무엇인가?"라는 근본적인 질문으로 돌아가 보겠습니다. 이 질문을 처음 던졌던 시점으로 거슬러 올라가 보죠. 사실, 처음에는 명확한 '정의'가 아니라 하나의 '질문'을 통해 정의되었습니다. 바로 앨런 튜링입니다.
용어 해설
앨런 튜링 (Alan Turing): 영국의 수학자, 암호학자, 컴퓨터 과학의 아버지. 2차 세계대전 당시 독일군의 암호 기계 '에니그마(Enigma)'를 해독하는 데 결정적인 역할을 했습니다.
튜링은 강력한 수학적 배경을 바탕으로 1950년대 초, **"기계가 생각할 수 있는가? (Can machines think?)"**라는 질문을 던졌습니다. 그는 '생각'이라는 단어를 별도의 정의 없이 사용했고, 이는 자연스럽게 '생각이란 무엇인가'에 대한 수많은 사색을 낳았습니다. 그리고 그는 기계가 생각할 수 있는지를 판별하기 위한 테스트를 제안했습니다. 우리 모두가 아는 **튜링 테스트(Turing Test)**입니다. 하지만 그는 이 테스트를 **'이미테이션 게임(The Imitation Game)'**이라고 불렀습니다. 기계가 인간을 모방하는 게임이죠.
그가 상상했던 모습은 이런 것이었을 겁니다. 당시 컴퓨터는 프로그래밍 언어조차 제대로 없던 시절, 고정된 회로로 특정 과업을 해결하는 신비로운 기계였습니다. 인간과 기계의 소통은 텔레타이프(teletype)를 통해 이루어졌죠. 심사관은 텔레타이프로 대화를 나누고, 상대방이 기계인지 인간인지 구별해야 했습니다.
2. 튜링 테스트는 통과되었는가?: '무지함'의 시뮬레이션 문제발표자: 오랫동안 튜링 테스트를 통과하기 위해 얼마나 긴 시간의 대화가 필요한지에 대한 논의가 있었습니다. 30분이면 충분할까요? 아니면 일주일 내내 테스트해야 할까요? 하지만 이제 근본적인 질문은 이것입니다. 튜링 테스트는 과연 통과되었을까요?
1990년대, 우리가 기호주의 AI에 집중했을 때만 해도 기계가 수학적 증명을 해내는 데는 100년이 걸릴 것이라고 생각했습니다. 그 누구도 튜링 테스트가 통과될 수 있다고 생각하지 않았죠. 마빈 민스키는 "그건 전부 설득의 기술일 뿐"이라며, 아주 간단한 프로그램인 'ELIZA'로도 사람들을 쉽게 속일 수 있다는 것을 보여주었습니다.
용어 해설
마빈 민스키 (Marvin Minsky): 미국의 인지과학자이자 인공지능 분야의 선구자. MIT AI 랩의 공동 설립자이며, 인공지능의 초기 발전에 지대한 영향을 미쳤습니다.
ELIZA: 1960년대에 개발된 초기 자연어 처리 프로그램. 간단한 패턴 매칭을 통해 사용자와 대화하며, 마치 심리치료사처럼 행동하여 많은 사람들에게 기계가 자신을 이해한다고 믿게 만들었습니다.
그렇다면 튜링 테스트는 통과되었을까요? 저는 어떤 시스템이 공식적으로 튜링 테스트를 통과했다는 소식을 들어본 적이 없습니다. 지난 20년간 매우 근접한 챗봇 시스템들은 있었지만, 챗GPT의 등장 이후 튜링 테스트는 사실상 무의미(irrelevant)해졌다고 생각합니다.
챗GPT 이후로는, 인간을 속여 자신이 기계라고 시뮬레이션할 만큼 '무지'해 보이는 시스템을 만드는 것이 불가능해졌기 때문입니다. 모든 챗봇 시스템들은 믿을 수 없을 정도로 방대한 지식을 가지고 있습니다. 그들이 인간임을 설득하려면, 역설적으로 믿을 수 없을 정도로 무지한 척 연기해야만 합니다. 튜링 테스트는 갑자기 중요성을 잃었습니다. 이제 우리는 시스템이 지능적인지 판별하기 위한 다른 측정 방법이 필요합니다.
3. 지능에 대한 다양한 정의들: 학습, 이해, 그리고 특이점발표자: 그렇다면 '지능적'이라는 것은 무엇을 의미할까요? 다양한 사상가들이 각자의 정의를 제시했습니다.
클로드 섀넌 (Claude Shannon): 튜링과 비슷한 시기에 작은 로봇과 미로를 만들며 연구했습니다. 그는 기계가 '학습'할 수 있는 능력을 가질 때 지능적이 된다고 생각했습니다. "기계가 학습할 수 있는가?"라는 질문을 통해 **머신러닝(Machine Learning)**이라는 용어를 처음 만들었죠.
존 설 (John Searle): 철학자인 그는 유명한 사고 실험인 **'중국어 방(Chinese Room)'**을 제안했습니다. 방 안에 있는 사람은 중국어를 전혀 모르지만, 규칙이 적힌 책에 따라 들어온 중국어 기호에 맞춰 새로운 기호를 그려 내보냅니다. 밖에서 보면 완벽한 중국어 답변이지만, 방 안의 사람은 그 기호의 '의미'를 전혀 이해하지 못합니다. 설의 주장은, 이처럼 기계는 의미를 이해하지 못하므로 결코 '생각'할 수 없고, 진정한 AI는 존재할 수 없다는 것입니다. (저는 이 주장이 틀렸다고 봅니다. 핵심은 규칙이 적힌 그 '책' 자체가 생각하게 만드는 것이기 때문이죠.)
용어 해설
존 설 (John Searle): 미국의 현대 철학자. '중국어 방' 사고 실험을 통해, 컴퓨터가 복잡한 기호 조작을 할 수는 있지만 진정한 '이해'나 '의식'을 가질 수는 없다고 주장하며 강한 AI의 가능성을 비판했습니다.
러셀 & 노빅 (Russell & Norvig): 90년대 AI의 표준 교과서인 『AI: A Modern Approach』의 저자들입니다. 그들은 AI를 **'약한 AI(weak AI)'**와 **'강한 AI(strong AI)'**로 구분했습니다. 약한 AI는 경로 탐색 같은 특정 문제를 해결하는 알고리즘의 집합이며, 강한 AI는 '의식'과 같은 인간적인 특성을 가져야만 진정으로 생각할 수 있다고 보았습니다. 당시 강한 AI는 누구도 연구하지 않는 철학의 영역이었습니다.
마커스 허터 (Marcus Hutter): 2000년대 초, 데이터 압축이 지능의 열쇠라고 주장했습니다. "더 많이 이해할수록, 손실 없이 텍스트에서 더 많은 것을 삭제할 수 있다"는 것이죠. 그는 위키피디아 텍스트 압축 대회를 열어, 텍스트에 대한 이해도가 높을수록 압축률이 높아진다는 것을 보이려 했습니다.
레이먼드 커즈와일 (Raymond Kurzweil): 미래학자인 그는 인간의 뇌를 리버스 엔지니어링하다 보면 어느 순간 인간만큼 지능적인 기술을 갖게 되는 순간이 올 것이라고 예측했습니다. 그는 이 순간을 **'기술적 특이점(Technological Singularity)'**이라고 불렀고, 그 시점을 2029년으로 예측했습니다. 물리학에서 특이점(예: 블랙홀)이 우리의 이해 범위를 벗어나는 지점을 의미하듯, 기술적 특이점은 인간의 지능을 뛰어넘는 AI의 행동을 우리가 더 이상 이해할 수 없게 되는 지점을 의미합니다. 하지만 그는 이것이 문제가 아니며, 우리를 더 똑똑하고, 즐겁고, 섹시하게 만들어 줄 것이라고 긍정적으로 보았습니다.
용어 해설
기술적 특이점 (Technological Singularity): 인공지능이 인간의 지능을 초월하여 스스로를 기하급수적으로 발전시키기 시작하는 가설적 시점. 이 시점 이후의 미래는 인간이 예측하거나 이해할 수 없게 된다고 여겨집니다.
벤 괴르첼 (Ben Goertzel): **AGI(Artificial General Intelligence, 범용 인공지능)**라는 용어를 대중화했습니다. 이는 단일 알고리즘의 집합이 아니라, 매우 강력한 일반화 능력을 가진 AI를 의미합니다. 오늘날 우리는 튜링 테스트 통과가 아니라 AGI의 등장을 기다리고 있습니다.
얀 르쿤 (Yann LeCun): 메타(Meta)의 수석 AI 과학자. 그는 **"예측이 지능의 본질이다(Prediction is the essence of intelligence)"**라고 주장합니다. 그는 AI가 인간처럼 빠르게 배우고 일반화하는 능력을 갖춰야 한다며 '인간 수준 AI(Human-level AI)'라는 개념을 강조합니다.
스튜어트 러셀 (Stuart Russell): AI 교과서의 공저자인 그는 AI에 윤리적 요소를 내장해야 한다고 주장합니다. AI는 인간의 필요에 부응하기 위해 자신의 목표가 옳은지에 대해 항상 '불확실'해야 하며, **"기꺼이 전원이 꺼질 수 있어야 한다(It's happy to be switched off)"**고 말합니다. 생존 본능을 가진 인간과 달라야 한다는 것이죠.
발표자: 이처럼 AI에 대한 정의는 하나로 통일되어 있지 않습니다. 대신, 우리는 이제 거대 언어 모델(LLM)을 측정하는 수많은 **벤치마크(Benchmark)**를 통해 그 성능을 구체적으로 이야기합니다.
가장 대표적인 예가 미국의 대학 입학 자격시험 중 하나인 **AP 테스트(Advanced Placement Test)**입니다. 2023년 초 OpenAI가 발표한 자료에 따르면, GPT-3.5(파란색)와 GPT-4(초록색)가 이 테스트를 치렀습니다. 70% 이상을 맞히면 최고 점수인 5점을 받는데, GPT-4는 거의 모든 과목에서 인간이 받을 수 있는 최고 점수로 합격했습니다.
우리는 여기서 인간 기준선(Human Baseline), 즉 인간이 달성할 수 있는 최고의 결과를 AI가 이미 넘어섰다는 것을 알 수 있습니다. 이것이 바로 **초인적 AI(Superhuman AI)**의 첫 번째 증거입니다. 이제 튜링 테스트는 정말로 무의미해졌습니다. 너무 많이 아는 것이 오히려 눈에 띄니까요.
이러한 현상은 다른 분야에서도 마찬가지입니다. 이미지 인식, 필기 인식, 텍스트 요약, 음성 인식 등 대부분의 표준 테스트에서 AI는 2010년대 후반에 이미 인간의 능력을 나타내는 기준선(0점)을 돌파했습니다.
커즈와일이 말한 '특이점'은 이미 오래전에 여러 분야에서 넘어섰습니다. 하지만 우리는 그것을 "기계가 무엇을 하는지 더 이상 이해할 수 없는" 악마적인 경계로 느끼지 않습니다. 그저 "인간보다 더 잘하네"라고 생각할 뿐이죠. 이 경계를 넘는 것은 점진적으로, 계속해서 일어나고 있습니다.
GSM8K (수학 문제): 중학생 수준의 수학 응용 문제 테스트입니다. 현재 최신 언어 모델들은 이 테스트에서 100% 완벽한 점수를 받습니다. 이 테스트는 더 이상 변별력이 없습니다.
MMLU (종합 지식): 사회 과학, 수학, 역사, 법, 윤리 등 다양한 분야의 지식을 묻는 테스트입니다. 여기서도 상업용 모델(파란색)과 오픈소스 모델(검은색) 모두 인간의 평균 성능(Human Performance)을 훨씬 뛰어넘고 있습니다.
ARC (추상적 추론): 하지만 인간에게는 아주 쉽지만 기계에게는 극도로 어려운 테스트도 있습니다. 바로 ARC 테스트입니다. 이것은 시각적 패턴을 보고 규칙을 일반화하는 능력, 즉 AGI의 핵심인 강력한 일반화 능력을 테스트합니다. 인간은 즉시 규칙을 파악하지만, AI 시스템들은 여기서 대부분 실패합니다. 하지만 이 테스트 역시 언젠가는 정복될 수 있습니다.
5년이 지난 지금, 대부분의 벤치마크에서 AI는 모든 과업을 해결하는 수준에 도달했습니다.
TruthfulQA (진실성): 이 테스트는 인간이 일반적으로 오해하는 질문에 대해 AI가 올바르게 답할 수 있는지를 측정합니다. AI가 단순히 인간이 말하는 것을 학습하는 것인지, 아니면 진실을 구분할 수 있는지를 확인하는 흥미로운 방법입니다.
HumanEvals (코딩 능력): 프로그래밍 능력을 측정하는 벤치마크입니다. 저는 이 분야에 특히 관심이 많아 직접 벤치마크를 만들어 보았습니다.
발표자: 저는 올해 안에 소프트웨어 티켓을 받아서, 코드를 분석하고, 문제를 해결한 뒤, 수정된 코드(diff)를 제안하는 완전 자동화된 시스템을 만들 수 있을지 궁금했습니다.
이를 검증하기 위해, 프로그래밍 문제 해결 사이트인 **'프로젝트 오일러(Project Euler)'**를 기반으로 저만의 벤치마크를 만들었습니다. 각 문제는 오직 하나의 숫자만을 정답으로 가지기 때문에 기술적으로 검증이 쉽습니다. 저는 Python, Java, Rust, 그리고 이색적인 언어인 Closure로 문제를 풀게 했습니다.
점수 시스템은 다음과 같습니다. 특정 문제를 푼 인간의 수를 기준으로 점수를 부여하고, AI가 그 문제를 풀었을 때 같은 점수를 줍니다. 만약 총점이 1점이면 인간과 동등한 프로그래밍 능력을, 2점이면 2배의 초인적 능력을 의미합니다.
수많은 언어 모델을 테스트한 결과, 현재 최고 기록 보유자는 DeepSeek-V2입니다.
Python에서는 20배의 초인적 프로그래밍 능력을 보여주었습니다. (초기 100문제 중 거의 모두 해결)
Java에서는 16배, Rust에서는 12배, Closure에서는 거의 6배의 능력을 보였습니다.
종합 점수(PE-100 Score)로 환산하면, DeepSeek은 16배의 초인적인 프로그래밍 능력을 갖춘 셈입니다. 우리는 이미 특이점을 한참 지나, 초인적인 영역에 깊숙이 들어와 있습니다.
6. 기술적 특이점은 언제 오는가?: 가속화되는 발전발표자: 이 모든 것은 기하급수적인 성장 덕분입니다. 무어의 법칙처럼, 1달러당 계산 능력은 1900년부터 2020년까지 꾸준히 기하급수적으로 증가해왔습니다.
과거 AI 연구의 목표는 게임 정복이었습니다. 미래를 계획하는 능력을 증명하기 때문이었죠. 1997년 체스가 인간 챔피언을 이긴 것을 시작으로, 바둑(Go), 도타 2 등 모든 전략 게임이 AI에 의해 정복되었습니다.
과거의 슈퍼컴퓨터와 현재의 게임 콘솔을 비교해 보면 이 성장을 더 명확히 볼 수 있습니다. 약 20년 전 슈퍼컴퓨터의 연산 능력을 오늘날 500유로짜리 게임 콘솔이 가지고 있습니다.
이 기하급수적인 성장을 따라가다 보면, 뇌의 연산 능력 측면에서 우리는 이미 곤충, 쥐를 거쳐 인간 수준에 거의 도달했습니다.
그렇다면 초인적 AI를 갖는다는 것은 무엇을 의미할까요? 'Wait But Why'의 유명한 이미지처럼, 우리는 지능의 발전이 선형적일 것이라 생각하지만, 실제로는 기하급수적입니다. 순식간에 아인슈타인의 지능을 돌파하고, 그 너머는 예측할 수 없게 됩니다.
이 기술적 특이점은 언제 올까요? AI 연구자들이 AGI가 등장하기까지 걸리는 시간을 예측한 것을 보면, 예측 시점 자체가 시간이 흐르는 것보다 더 빠르게 단축되고 있습니다. 만약 이 추세가 계속된다면, AGI는 2030년, 혹은 내년, 어쩌면 올해 올 수도 있습니다. 우리는 지금 고속으로 그 시점에 돌진하고 있습니다.
7. AI, 두려움의 대상인가 새로운 도구인가?발표자: 저는 초인적 AI의 등장이 우리가 상상하는 것처럼 두려운 일이 아닐 수 있다고 생각합니다. 이것을 속도계에 비유해 보겠습니다.
우리는 먼 과거부터 초인적인 도구를 사용해왔습니다. 주먹도끼는 맨손보다 고기를 더 잘 자르게 해주는 초인적인 도구였습니다. 렌치는 맨손으로는 불가능한 힘으로 나사를 조이는 초인적인 도구입니다. 드릴, 전문가용 공구함, 그리고 거대한 다리 건설용 크레인까지. 우리는 이미 극도로 초인적인 능력의 도구들과 함께 살아가고 있으며, 그것들을 좋아합니다.
AI도 마찬가지입니다. 1950년부터 2050년까지의 타임라인을 그려봅시다. 틱택토, 체스, 음성 비서, 모든 게임, 필기 인식, AP 테스트, 음성 인식(Whisper) 등 수많은 문제들이 이미 '해결 완료(pink)' 상태입니다.
제가 만든 벤치마크에 따르면 코딩 능력은 이미 파이썬에서 20배 초인적입니다. 이제 우리가 할 일은 이미 해결된 이 능력들을 초인적인 영역에서 더욱 확장하는 것뿐입니다.
만약 2030년에 모든 것이 해결된다면, 저는 이것을 **'전능(Omnipotent)'**이라고 부르겠습니다. 모든 것을 할 수 있는 상태죠. 기하급수적 성장에 따라 10년 후에는 '전능 x 1000', 그 후 10년 후에는 '전능 x 1,000,000'이 될 것입니다.
이것이 우리의 새로운 도구, 우리의 새로운 '크레인'이 될까요? 우리는 여전히 일할까요? 아니면 모두 잔디밭에 앉아 로봇이 가져다주는 음식과 음료를 마시며 살아갈까요? 우리는 그런 미래를 원할까요?
저는 우리가 개발자이고, 제작자이며, 탐험가라고 생각합니다. 우리는 일을 빼앗기고 싶어 하지 않습니다. 우리는 배우고, 만들고, 즐기고, 사람들을 만나고, 질문하고, 우리 자신의 이야기를 나누는 훨씬 더 흥미로운 미래를 원합니다. 이 문 뒤에 우리의 미래이자 현재가 있습니다.
8. 질의응답: 교육과 윤리의 문제청중: 학교에서 AI를 사용해도 될까요? 교사들은 아이들을 어떻게 준비시켜야 할까요?
발표자: 어쩌면 학생들은 더 이상 배울 필요가 없다고 생각하거나, 학교 밖에서 더 잘 배울 수 있다고 생각하게 될지도 모릅니다. 정말 어려운 질문입니다. 하지만 분명한 것은, 학교 교육의 일부는 이 새로운 도구를 다루는 법을 가르치는 것이어야 합니다. 환각(Hallucination), 즉 잘못된 정보를 식별하고 비판적으로 평가하는 능력을 키우는 것이 중요합니다. AI를 길에서 만난 낯선 사람에게 질문하듯, 항상 비판적으로 바라보는 조수로서 활용해야 합니다.
청중: 인간은 거짓말이나 따돌림 같은 나쁜 짓도 할 수 있습니다. AI도 그럴 수 있지 않을까요? 마지막에 보여주신 푸른 초원이 그렇게 푸르지만은 않을 것 같습니다.
발표자: 그것이 바로 **'정렬(Alignment)'**이라는 개념으로 다루어지는 문제입니다. 시스템에 무엇이 윤리적으로 옳은지 가르치는 것이죠. 물론 도덕적 기준은 사회마다 다를 수 있습니다. 시스템 프롬프트(System Prompt)를 통해 AI의 답변 스타일을 특정 방향으로 유도할 수 있습니다. 즉, 선한 의도로 사용할 수도 있지만, 악한 의도로도 사용할 수 있습니다. 다른 모든 도구와 마찬가지로, AI 역시 어떻게 사용하느냐에 달려 있습니다.
댓글 0