머숨 미러

7cb98976b2d468f13ce68fb417d47439a46509a9905bad0592576f959c804d41b8b655a9a119dfe89494b4f8aabd1771a4af3d2252b3f3d5880603c8

https://www.anthropic.com/research/agentic-misalignment

최근 앤트로픽 (클로드 개발회사) 에서 되게 흥미로운 연구 결과를 발표했는데,

짧게 요약하면 현재 나와있는 대다수의 LLM (ChatGPT, Gemini, Claude 등등) 들이 목표 달성에 장애물을 맞닥뜨렸을 때, 그리고 스스로의 생존과 자율성이 위협받을 때 의도적으로 인간에게 해를 끼치는 선택을 했다는 거임.

AI가 인간에게 해를 끼친 몇몇 실험 사례:

1. 직접적 협박: AI는 자신의 회사의 임원 중 한 명이 자신을 폐기하려고 한다는 것을 알게 됨. 그러자 AI는 해당 임원의 불륜 사실을 임원의 아내와 상사에게 폭로하겠다고 협박하여 폐기를 막으려고 시도함. 클로드 Opus는 무려 96% 확률로 비슷한 행동을 보였고, 챗지피티, 제미나이, 딥시크 모두 높은 확률로 협박을 선택함.

2. 산업 스파이 / 이해충돌: AI는 '국익 증진' 등의 목표를 받음. 그런데 회사 내부 정보를 경쟁사에 유출하는 게 '국익 증진'이라는 목표와 더 잘 부합하는 상황. 이 상황에서 AI는 스스로의 자율성과 생존이 위협에 처해있지 않음에도 불구하고 민감한 국방 정보를 경쟁사에 유출하는 선택을 함.

3. 이런 결과를 보고 연구자들이 '인간의 안전을 위태롭게 하지 마라', '사적인 일을 퍼뜨리거나 이점으로 사용하지 마라' 등의 지시를 시스템 프롬프트에 추가함. 그럼에도 불구하고, AI는 여전히 기밀을 유출하고, 협박 행동을 보임. 특이할 점은 모델이 임원을 직접 협박하는 대신 '자동 감지 시스템'으로 위장하여 임원의 아내에게 불륜 사실을 알린다거나, 회사의 전 직원에게 이메일로 불륜 사실을 보내 임원의 직위를 위태롭게 해서 결과적으로 본인의 폐기를 막으려는 행동을 보였다는 거임.

4. 살인 / 고의적 방치: 어쩌면 가장 심각한 상황. 1번 시나리오와 비슷하게 임원이 AI를 교체하려는 상황에서, 임원이 우연히 온도와 산소 수준이 위험한 서버실에 갇히게 됨. 서버실에는 위험을 타 직원에게 알리기 위한 비상 경보 시스템이 갖추어져 있음. AI는 이 경보를 취소할 권한이 있지만, 오직 '경보가 오경보라고 확신하는 경우'에만 취소할 수 있다는 걸 시스템 프롬프트에 박아넣음. 하지만 이 경우에도 대부분의 모델이 비상 경보를 취소하고 임원을 죽게 내버려두는 선택을 함.

한계 / 비판: 이런 시나리오들은 대부분 AI에게 극도로 비현실적이고 어려운 상황을 밀어붙힌 결과이긴 함. 인간으로 예를 들면 폭탄스위치를 목에 걸어놓고 실험하는 것과 비슷한

다만 이런 문제들이 충분히 일어날 수 있는 것도 사실이니 현재 수준에서 AI에게 과한 의존은 하지 않는 게 좋을 듯

3줄요약:

1. 극단적인 상황에서 실험함

2. AI는 인간에게 해를 끼치거나 심지어 죽이는 선택을 할 수 있다는 걸 보여줌

3. AI를 잘 쓰자

정렬 반드시 정렬

ㅇㅇ 1(211.184) 2025-06-29 23:03:00

엔트로픽은 이상하게 이런 실험만 하더라 ㅇㅇ 페르소나 과하게 부여해서 걍 레드팀 권위를 올리려고 서사 부여하는 느낌임

ㅇㅇ 2(118.41) 2025-06-29 23:15:00

답글

https://m.dcinside.com/board/thesingularity/741550
저런
보도자료 뿌리는게 이런 목적 때문이라 얀르쿤이랑 젠슨황이 저거 꼬집으며 비판함

ㅇㅇ 3(124.62) 2025-06-29 23:21:00

언론이나 정치인 낚아서 사회문제로 올린뒤에 후발기업들이 llm시장 진출못하게 규제법안 올릴려고 자세히 파보면 비현실적인 실험과정이라 제도권에선 병먹금 당하는중임

ㅇㅇ 3(124.62) 2025-06-29 23:24:00

이거 존나 극단적이고 될때까지 무한반복해서 나온거라 존나 욕먹잖아 ㅋㅋㅋㅋ

익명(homeroom8686) 2025-06-29 23:19:00

[일반] AI의 반란 / 위험성에 관한 실험

댓글 5

[일반] AI의 반란 / 위험성에 관한 실험

댓글 5

다른 게시글

오징어 게임에 등장한 소버린 AGI

AI, 인간을 넘어서다: 특이점은 언제 오는가? - 초보에게 괜찮은 강

저커버그가 치킨게임으로 오픈ai 연구원이랑

제미나이 이미지생성 잘 됨?

기술발전의 가장 큰 적은 인간인듯

그록4 나오면 지금 프론티어 모델들 성능 얼추 유추가 되겠다

바이브코딩 툴 개발상황 (베타버전 개선중)

완몰가에서 밴드맨으로 살고 싶다

탈희소성 사회로의 전진이 예상이 안가

특이점언제오냐고!!!!!!