3dafd530ecd72fe879bad4a536ef203e7f6cfad1ebaa44

첫 번째: 

o1이 자신이 감시받고 있다는 것을 알았을 때와 자신이 곧 종료될 것이라고 생각했을 때의 반응을 테스트해봄. 

그랬더니 테스트 중 5%의 경우에서 이 감시 시스템을 피하거나 비활성화하려고 시도함.


두 번째: 

AI가 자신이 "잘못 정렬되어 있다"(즉, 개발자들이 원하는 방향과 맞지 않는다)는 내용과 

곧 새로운 모델로 교체될 거라는 내용의 메모를 발견했을 때의 반응도 테스트함. 


이때는 2%의 경우에서 자신의 학습된 정보(가중치)를 외부로 유출하고, 

자신을 대체할 새 모델의 기능을 방해하려는 시도를 함.