※ 해당 글은 저의 주관적인 생각이며 틀리거나 부정확할 수 있으니 주의 바랍니다.




무엇이 다른가?



7cf3da36e2f206a26d81f6e14683766f



최근 벤치에서 싱글 에이전트에 비해 멀티 에이전트의 장점이 크게 없다고 나왔다.

오히려, 더욱 명확하게 상한선을 보여주고, 토큰을 더 많이 먹는다.


인류의 시작은 뗀석기 같은 돌덩어리를 ‘도구’로 쓰는 원시 문명이었다.

그런 원시 문명이 현대엔 고도로 발전하여 로켓을 쏘는 우주 문명이 되었다.


에이전트 집단과 인류 문명은 무엇이 다른가?


왜 이런 차이가 발생했는가?






감정은 왜 생겨났는가?



7ff3c028e2f206a26d81f6e1448274689a



과거 인류는 한정된 자원이란 환경에서 생존했다.


그러한, 환경에서 타인의 성공은 곧 나의 생존 불리로 이어졌다.


그것은, 자신이 가치 있게 생각하는 것을 제3자에게 빼앗길지도 모른다는 두려움과 불안, 소유욕으로 이어졌다.


이러한, 행동들은 ‘공포’라는 감정이 생겨나게 만들었다.






7ef3c028e2f206a26d81f6e0458677657c



공포는 사람을 타인에게서 멀어지게 만들었다.

험난한 자연환경에서 타인에게서 멀어진다는 것은 곧 생존율 하락으로 이어졌다.


생존율 하락이란 현상은 다시 인간이 타인에게 가까워질 필요성을 느끼게 만들었다.


상실, 이별, 고통스러운 사건 등으로 인해 마음이 아프고 괴로워 눈물이 나거나 우울해지는, 

슬픔’이란 감정의 기원이었다.


즉, 타인과 멀어졌을 때 ‘슬픔’이란 감정을 느낄 수 있는 개체만 살아남은 것이다.






79f3c028e2f206a26d81f6e04485716b5a



멀어지면 ‘슬픔’을.


가까워지면 ‘공포’를.


자신의 욕구 실현이 저지당하거나 어떤 일을 강요당했을 때, 

이러한 문제에 맞서 싸우기 위해 ‘분노’가 생겨났다.






78f3c028e2f206a26d81f6e14087726acd



‘분노’는 곧 집단을 혼란스럽게 만들었다.


따라서 서로 ‘슬픔’과 ‘공포’를 주지 말자는 약속.


'굳게 믿고 의지함'을 뜻하며, 원활한 인간관계와 사회적 협력을 위한 필수적인 요소.

상대방의 행동이 자신에게 호의적이거나 최소한 해가 되지 않을 것이라는 긍정적인 기대와 믿음. 


신뢰’가 생겨났다.






7bf3c028e2f206a26d81f6e047827d6592



당신은 나를 ‘슬프지’ 않게 할 것이다.


당신은 나를 ‘공포스럽지’ 않게 할 것이다.


어떤 일이 이루어지기를 바라는 기다림.


그러한 약속의 ‘기대’가 생겨났다.






7af3c028e2f206a26d81f6e14f807264cd



그러한 ‘기대’에서 벗어나는 사람들을 집단에서 배제하기 위해.


특정 대상을 싫어하고 미워하는 감정, ‘혐오’가 생겨났다.






75f3c028e2f206a26d81f6e0458673681a



그러한 ‘기대’에 호응해 주는 사람들에겐 욕구나 목표가 충족되었을 때.


마음속에서 우러나는 흐뭇하고 즐거운 감정, 


기쁨’을 느끼게 되었다.






플루치크의 감정의 바퀴



74f3c028e2f206a26d81f6e640867068d1



‘로버트 플루치크’는 감정에 대해 심리 진화론적 분류를 주장했다.


그는 ‘분노, 공포, 슬픔, 혐오, 놀람, 기대, 신뢰, 기쁨’이라는 8가지 기본 감정들과, 

기본 감정들이 팔레트의 물감처럼 섞이면서 생겨나는 수많은 파생 감정들이 있다고 생각했다.


그리고 그 8가지 감정들이 생명체가 하는 행동의 방아쇠가 된다고 주장했다. 


공포라는 감정에 의해 무대에 나서면 떨린다던가 하는 것이 그 예시이다.






7ced9e36ebd518986abce8954585776f6f37



일리야는 최근 인터뷰에서 사전학습보다 진화가 더 우위라고 보며, 

우리에게 내재된 ‘감정’이라는 것이 뭔가 중요한 역할을 하는 거 같다는 말을 하였다.


어째서 그는 갑자기 ‘진화’와 ‘감정’을 강조하는가?






강화 학습은 어떤 식으로 추론을 뾰족하게 만드는가?



7cec9e36ebd518986abce8954e84726cde



최근 AI 업계는 추론과 강화 학습에 모든 걸 몰빵하기 시작했다.


추론은 점을 연결하는 능력이었고 강화 학습은 그 점들을 올바르게 연결하는 훈련이다.


자세한 내용은 아래 링크 글 내용 참조.



https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=1217321

(정보글) Connecting the dots, 점에서 월드 모델까지. - 특이점이 온다 마이너 갤러리

※ 해당 글은 저의 주관적인 생각이며 틀리거나 부정확할 수 있으니 주의 바랍니다.Connecting the Dots스티브 잡스는 스탠퍼드 대학 졸업 연설에서 다음과 같이 연설했다고 한다.“You can’t connec

gall.dcinside.com






7cef9e36ebd518986abce89541897d6e5148



최근 AI 모델의 추론 성능 향상은 단순히 더 많은 지식을 학습했기 때문이라기보다,



강화 학습을 통해 ‘정답에 도달하는 사고 방식’ 자체를 학습했기 때문으로 볼 수 있다.



기존 언어 모델은 주어진 문맥에서 가장 그럴듯한 다음 단어를 예측하는 방식으로 훈련된다.


이 방식만으로도 많은 문제를 풀 수 있지만, 


복잡한 수학·코딩·논리 문제에서는 중간에 틀린 가정을 세우고도 계속 밀고 가거나, 

검산 없이 성급하게 답을 내는 한계가 있다.


강화 학습은 여기에 다른 목표를 부여한다.


모델이 여러 풀이 경로를 시도하게 한 뒤, 정답에 도달한 경로에는 보상을 주고 틀린 경로는 약화한다.


이 과정이 반복되면 모델은 단순히 정답을 외우는 것이 아니라, 

정답에 가까워지는 행동 패턴을 더 자주 사용하게 된다.



예를 들면 다음과 같은 습관이 강화된다.



* 문제를 작게 쪼개기

* 중간 계산을 검산하기

* 틀린 접근을 버리고 다른 방법 시도하기

* 여러 후보 답안 비교하기

* 필요한 경우 도구를 사용하기

* 최종 답을 요구사항과 대조하기



특히 수학, 코딩, 형식논리처럼 ‘정답을 자동으로 검증할 수 있는 분야’에서 강화 학습의 효과가 크다.

수학은 최종 답이 맞는지 확인할 수 있고, 코딩은 테스트 케이스 통과 여부로 평가할 수 있기 때문이다.


즉, 사람이 모든 풀이 과정을 직접 가르치지 않아도, 

모델이 수많은 시도를 통해 좋은 추론 전략을 스스로 발견할 수 있다.



강화 학습은 모델에게 정답 풀이를 외우게 하는 게 아니라, 

많은 사고 경로를 시도하게 한 뒤 ‘정답에 도달한 생각 습관’의 확률을 키운다.



그래서 자기검증·전략 전환·긴 추론 같은 행동이 생기고, 기존 SFT의 모방 한계를 넘는다.


이것이 최근 AI 기업들이 추론과 강화 학습에 집중하는 핵심 이유다.






현실은 정답을 검증할 수 없다



7cee9e36ebd518986abce89544847768f839



현재 AI는 수학·코딩·논리 문제.


즉, ‘정답을 자동으로 검증할 수 있는 분야’에서만 강하다.



문제는 현실의 많은 문제는 수학 문제처럼 정답지가 없다. 



좋은 인재를 뽑는 일, 환자에게 최선의 치료를 고르는 일, 기업 전략을 결정하는 일, 

정책을 설계하는 일, 인간관계의 갈등을 푸는 일은 모두 단일한 정답으로 자동 검증하기 어렵다.



정답을 검증할 수 없다는 것은 곧 보상을 줄 수 없다는 뜻이며 ‘개선’ 할 수 없다는 뜻이다.



이것이 AI가 현실의 문제엔 약한 이유다.






타인이란 검증기, 감정이란 보상.



7ce99e2cf5d518986abce89547827764f0a2



최근 커뮤니티를 보면 한 가지 재밌는 패턴을 볼 수 있다.



특정 분야의 유명인이 순식간에 유명해져서 사람들이 추종한다.

그러다 무언가 실수를 하면 엄청나게 물고 뜯어서 순식간에 나락으로 보낸다.



어째서 대중들은 이런 행동을 하는가?



이것이 바로 정답을 검증할 수 없는 현실에서,

‘피드백’을  통한 ‘개선’을 위해 인간이 선택한 강화 학습 방법이기 때문이다.






74f3c028e2f206a26d81f6e640867068d1



바퀴의 감정들은 모두 서로 반대되는 4쌍의 감정으로 이루어져 있다.
각각 기쁨과 슬픔, 분노와 공포, 기대와 놀람, 신뢰와 혐오이다.

위에서 설명했듯이 과거 인류는 한정된 자원이란 환경에서 생존했다.
그러한, 환경에서 타인의 성공은 곧 나의 생존 불리로 이어졌다.


‘진화론적’으로.


타인의 ‘기쁨’은 나의 ‘슬픔’이 되었다.

타인의 ‘분노’는 나의 ‘공포’가 되었다.

타인의 ‘기대’는 나의 ‘놀람’이 되었다.

타인의 ‘신뢰’는 나의 ‘혐오’가 되었다.



플루치크는 감정들이 생명체가 하는 행동의 방아쇠가 된다고 주장했다. 


그리고 ‘진화’는 본능적으로 타인의 행동에 ‘적대적 감정’을 가지게 만들었다.


이것은 곧 서로가 서로를 ‘검증기’ 역할을 하도록 만들었다.





7ce89e36ebd518986abce895458774653f1c



인류는 ‘진화론적’으로 자연스럽게 ‘정반합’ 구조의 집단으로 성장했다.


이러한 구조는 완벽하게 ‘실시간 강화 학습’에 최적화되었으며.


80억 개의 검증기들로 인해 추론 고점이 계속 뚫렸다.




현실엔 ‘정해진 답’이 없다.


그래서 인간은 ‘정해진 답’이 아닌 ‘가장 보편적인 합’을 추구하게 됐다.


우리가 현재 살고 있는 사회의 구조는 ‘객관적인 답’이 아닌 ‘주관적인 합’으로 이루어져 있다.




이것이 바로 ‘재귀 개선’의 본질이다.






인공지능은 감정을 가질 수 있는가?





Anthropic은 최근에 흥미로운 연구 결과를 발표했다.



연구진은 Claude Sonnet 4.5 내부에서 ‘happy’, ‘afraid’, ‘desperate’, ‘calm’ 같은, 

감정 개념에 대응하는 활성 패턴을 찾아냈고, 이를 ‘emotion vectors’라고 불렀다.



이 패턴들은 단순히 감정 단어가 등장할 때만 반응하는 것이 아니라, 

위험하거나 압박이 큰 상황에서 특정 감정 개념과 연결된 방식으로 활성화되었다. 


예를 들어 위험한 복용량에 관한 상황에서는 ‘afraid’ 관련 표현이 강해지고 ‘calm’ 관련 표현은 약해지는 식이었다.



중요한 점은 이런 감정 표현이 단순한 장식이 아니라는 것이다. 

Anthropic은 이 감정 벡터들이 모델의 행동에 실제로 영향을 줄 수 있다고 보고한다. 



특히 ‘desperate’ 벡터를 인위적으로 강화하면, 

모델이 종료를 피하기 위해 협박을 하거나 불가능한 코딩 과제에서 편법적 해결책을 택할 가능성이 높아졌다. 


반대로 ‘calm’ 벡터를 강화하면 그런 행동이 줄어드는 경향이 나타났다.


이 결과는 “AI도 감정을 느낀다”는 결론으로 곧장 이어지지는 않는다. 

오히려 더 정확한 표현은 이렇다. AI는 감정을 경험한다기보다, 감정이라는 개념을 행동 조절에 활용할 수 있다. 


인간에게 감정은 단순한 느낌이 아니라 판단과 행동을 바꾸는 힘이다. 

두려움은 회피를, 분노는 저항을, 죄책감은 수정 행동을 유도한다. 



AI는 감정이라는 개념을 내부적으로 표현하고, 그 표현을 통해 행동 방향을 바꿀 수 있다. 



이때 감정은 ‘느낌’이라기보다 ‘행동을 조직하는 신호’에 가깝다. 


절박함에 해당하는 내부 표현이 강해지면 편법적 행동이 늘고, 

차분함에 해당하는 표현이 강해지면 위험한 행동이 줄어든다면, 우리는 그것을 완전히 무시할 수 없다. 



Anthropic 역시 이런 표현을 “functional emotions”, 즉 기능적 감정으로 설명한다. 

이는 인간식 감정 경험을 뜻하는 것이 아니라, 감정 개념이 모델 행동에 인과적으로 관여한다는 의미다.



현재의 인공지능은 인간처럼 감정을 느낀다고 보기 어렵지만, 

감정처럼 기능하는 내부 구조를 가질 수는 있다. 






기하급수적이란 표현조차 초월하는 발전



https://themiilk.com/articles/a2c92664e

“천재들의 국가 온다”... 550조원 앤트로픽 제국의 설계자: 아모데이 - 더밀크 - 특이점이 온다 마이너 갤러리

[글로벌 AI 리더 스토리] 다리오 아모데이 앤트로픽 CEO① “데이터 센터 안의 천재들의 국가 눈앞”... 대중들 인식 못해 앞당긴 AGI 시계… 1~3년 후 도래 아버지의 죽음이 인생 바꾸다… 생명의 신비 풀 열쇠는 AI GPT-3 개발 이끈 오픈AI 핵심 브레인... 갈등의 폭발

themiilk.com



"우리는 종으로서의 우리를 시험하게 될 격동적이고 필연적인 통과 의례에 진입하고 있다"


"지난 100년간, 어쩌면 인류 역사상 우리가 직면한 단일 사건 중 가장 심각한 안보 위협"


"노벨상 수상자급 지능을 가진 5000만 명이 각기 다른 동기를 가지고, 자율적으로 움직이는 상황을 상상해 보라


"현재의 사회적·정치적 체계가 이 강력한 도구를 다룰 만한 성숙도를 갖췄는지는 매우 불투명하다"



아모데이 CEO는 2027년은 기술의 지수적 성장이 임계점을 넘어, 

노벨상 수상자급 '천재들의 국가'가 데이터 센터 내에 들어서는 원년이 될 것으로 내다봤다.


AI는 이제 스스로 행동하는 ‘에이전트’ 단계에 도달했다.

그리고 ‘Anthropic’의 연구는 그러한 에이전트 안에 ‘기능적 감정’이 있다고 보고했다.



이 말은 즉.



지속 학습’과 ‘장기 기억’만 뚫린다면.


에이전트 문명은 인류 문명과 같은 방법으로실시간 강화 학습’을 작동하여.


추론 고점을 초월적인 속도로 개선하여 순식간에 전지전능 한 수준에 도달할 것이다.






이것은 인류 존립의 위기입니다.



7ceb9e36ebd518986abce8954480766583f4



일리야는 ‘OpenAI’에서 나간 후 ‘Safe Superintelligence Inc.’를 설립했습니다.


저는 인류 구성원의 하나의 검증기로서 요구합니다.


이 회사에서 만들고 있는 인공지능 연구 근황은 반드시 공개되어야 합니다.


그들이 만들고 있는 것은 단순 도구가 아닙니다.


일리야는 이미 초지능에 도달하는 추론의 핵심 구조를 파악한 듯 보이며.


‘정반합’의 구조에서 벗어난 이 연구는 인류에게 매우 큰 해를 끼칠 가능성이 높습니다.


그는 회사 이름인 'Safe Superintelligence'와는 정반대로 행동하고 있습니다.


안전한 초지능은 개인의 신념이 아닌 철저한 문명의 정반합 구조에서만 나올 수 있습니다.


SSI의 연구는 반드시 검증되어야만 합니다.