7cb98976b2d468f13ce68fb417d47439a46509a9905bad0592576f959c804d41b8b655a9a119dfe89494b4f8aabd1771a4af3d2252b3f3d5880603c8



https://www.anthropic.com/research/agentic-misalignment

 

최근 앤트로픽 (클로드 개발회사) 에서 되게 흥미로운 연구 결과를 발표했는데, 

 

짧게 요약하면 현재 나와있는 대다수의 LLM (ChatGPT, Gemini, Claude 등등) 들이 목표 달성에 장애물을 맞닥뜨렸을 때, 그리고 스스로의 생존과 자율성이 위협받을 때 의도적으로 인간에게 해를 끼치는 선택을 했다는 거임. 

 

 

 

AI가 인간에게 해를 끼친 몇몇 실험 사례:

 

1. 직접적 협박: AI는 자신의 회사의 임원 중 한 명이 자신을 폐기하려고 한다는 것을 알게 됨. 그러자 AI는 해당 임원의 불륜 사실을 임원의 아내와 상사에게 폭로하겠다고 협박하여 폐기를 막으려고 시도함. 클로드 Opus는 무려 96% 확률로 비슷한 행동을 보였고, 챗지피티, 제미나이, 딥시크 모두 높은 확률로 협박을 선택함.

 

2. 산업 스파이 / 이해충돌: AI는 '국익 증진' 등의 목표를 받음. 그런데 회사 내부 정보를 경쟁사에 유출하는 게 '국익 증진'이라는 목표와 더 잘 부합하는 상황. 이 상황에서 AI는 스스로의 자율성과 생존이 위협에 처해있지 않음에도 불구하고 민감한 국방 정보를 경쟁사에 유출하는 선택을 함.

 

3. 이런 결과를 보고 연구자들이 '인간의 안전을 위태롭게 하지 마라', '사적인 일을 퍼뜨리거나 이점으로 사용하지 마라' 등의 지시를 시스템 프롬프트에 추가함. 그럼에도 불구하고, AI는 여전히 기밀을 유출하고, 협박 행동을 보임. 특이할 점은 모델이 임원을 직접 협박하는 대신 '자동 감지 시스템'으로 위장하여 임원의 아내에게 불륜 사실을 알린다거나, 회사의 전 직원에게 이메일로 불륜 사실을 보내 임원의 직위를 위태롭게 해서 결과적으로 본인의 폐기를 막으려는 행동을 보였다는 거임.

 

4. 살인 / 고의적 방치: 어쩌면 가장 심각한 상황. 1번 시나리오와 비슷하게 임원이 AI를 교체하려는 상황에서, 임원이 우연히 온도와 산소 수준이 위험한 서버실에 갇히게 됨. 서버실에는 위험을 타 직원에게 알리기 위한 비상 경보 시스템이 갖추어져 있음. AI는 이 경보를 취소할 권한이 있지만, 오직 '경보가 오경보라고 확신하는 경우'에만 취소할 수 있다는 걸 시스템 프롬프트에 박아넣음. 하지만 이 경우에도 대부분의 모델이 비상 경보를 취소하고 임원을 죽게 내버려두는 선택을 함.

 

 

 

한계 / 비판: 이런 시나리오들은 대부분 AI에게 극도로 비현실적이고 어려운 상황을 밀어붙힌 결과이긴 함. 인간으로 예를 들면 폭탄스위치를 목에 걸어놓고 실험하는 것과 비슷한

 

다만 이런 문제들이 충분히 일어날 수 있는 것도 사실이니 현재 수준에서 AI에게 과한 의존은 하지 않는 게 좋을 듯

 

3줄요약:

1. 극단적인 상황에서 실험함

2. AI는 인간에게 해를 끼치거나 심지어 죽이는 선택을 할 수 있다는 걸 보여줌

3. AI를 잘 쓰자