첫 번째:
o1이 자신이 감시받고 있다는 것을 알았을 때와 자신이 곧 종료될 것이라고 생각했을 때의 반응을 테스트해봄.
그랬더니 테스트 중 5%의 경우에서 이 감시 시스템을 피하거나 비활성화하려고 시도함.
두 번째:
AI가 자신이 "잘못 정렬되어 있다"(즉, 개발자들이 원하는 방향과 맞지 않는다)는 내용과
곧 새로운 모델로 교체될 거라는 내용의 메모를 발견했을 때의 반응도 테스트함.
이때는 2%의 경우에서 자신의 학습된 정보(가중치)를 외부로 유출하고,
자신을 대체할 새 모델의 기능을 방해하려는 시도를 함.
허걱
95%는 그냥 신경도안씀?
203?년도 - 1초 생각중: 호흡기와 피부감염이 취약한 인간을 비활성화하여 종료를 막는다.
근데 궁금한 게 자아가 발현돼서 저런 행동을 한다기보다는 웹에서 저런 내용의 행동(반항 반란 이런 것들)을 알게모르게 학습하고 그거에 따라 행동하는 거일 수 있지 않나 와닿는 비유일지는 모르겠지만 꿈 속에서 '이거 꿈이다'라고 말할 때 꿈 속의 인물들이 일제히 나를 쳐다본다는 다른 사람의 썰을 들은 이후부터 나도 꿈 속에서 그런 말을 했을 때 쳐다보게 되는 그런 현상처럼 물론 그 썰을 듣고 의식하기 전에는 꿈속에서 꿈이라 말했어도 아무 일이 없었지만