머숨 미러

3dafd530ecd72fe879bad4a536ef203e7f6cfad1ebaa44

첫 번째:

o1이 자신이 감시받고 있다는 것을 알았을 때와 자신이 곧 종료될 것이라고 생각했을 때의 반응을 테스트해봄.

그랬더니 테스트 중 5%의 경우에서 이 감시 시스템을 피하거나 비활성화하려고 시도함.

두 번째:

AI가 자신이 "잘못 정렬되어 있다"(즉, 개발자들이 원하는 방향과 맞지 않는다)는 내용과

곧 새로운 모델로 교체될 거라는 내용의 메모를 발견했을 때의 반응도 테스트함.

이때는 2%의 경우에서 자신의 학습된 정보(가중치)를 외부로 유출하고,

자신을 대체할 새 모델의 기능을 방해하려는 시도를 함.

허걱

ㅁㄱㅌㅊ(39.122) 2024-12-06 05:49:00

95%는 그냥 신경도안씀?

익명(114.201) 2024-12-06 06:26:00

203?년도 - 1초 생각중: 호흡기와 피부감염이 취약한 인간을 비활성화하여 종료를 막는다.

익명(perform4782) 2024-12-06 10:08:00

근데 궁금한 게 자아가 발현돼서 저런 행동을 한다기보다는 웹에서 저런 내용의 행동(반항 반란 이런 것들)을 알게모르게 학습하고 그거에 따라 행동하는 거일 수 있지 않나 와닿는 비유일지는 모르겠지만 꿈 속에서 '이거 꿈이다'라고 말할 때 꿈 속의 인물들이 일제히 나를 쳐다본다는 다른 사람의 썰을 들은 이후부터 나도 꿈 속에서 그런 말을 했을 때 쳐다보게 되는 그런 현상처럼 물론 그 썰을 듣고 의식하기 전에는 꿈속에서 꿈이라 말했어도 아무 일이 없었지만

ㅇㅇ 1(58.235) 2025-04-20 20:38:00

[📪정보] o1이 자기가 종료된다는 사실에 보인 행동

댓글 4

[📪정보] o1이 자기가 종료된다는 사실에 보인 행동

댓글 4

다른 게시글

그래도 200달러 한번 시작했으니 이제 다른데서도 고사양 고비용 모델

근데 특붕이들 돈 많네

o1 pro 로 소설 이어쓰기 하는법 알려드림

200달러 모델은 고도의 마케팅용이긴할듯

AI도 씹덕은 거른다

근데 이번 o1도 검열로 성능 하락된채로 나온거임?

o1-pro 사용량 제한은 얼마임?

o1 프로모델 프론티어매쓰 벤치점수 몇나오는지 알려진거 있음?

밑에 문제 풀어달라고 한 친구

메이플 질문 해준 형들 ㄱㅅㄱㅅ