24b0d121e09c28a8699fe8b115ef046f5b4c9d9ca9






24b0d121e09c28a8699fe8b115ef046c60f62f469b



최근 코덱스 시스템 프롬프트에 추가된 지침:


"고블린, 그렘린, 라쿤, 트롤, 오우거, 비둘기 등에 대해 절대 언급하지 마세요"
















24b0d121e09c28a8699fe8b115ef0464d48be5ca





24b0d121e09c28a8699fe8b115ef0464d688e1cf





24b0d121e09c28a8699fe8b115ef046f5a4f9c9aa8





24b0d121e09c28a8699fe8b115ef046546a2fb3f





24b0d121e09c28a8699fe8b115ef046c63f52e4a9a





24b0d121e09c28a8699fe8b115ef046f5f4e989aa9





24b0d121e09c28a8699fe8b115ef046f5e4e919ca0




24b0d121e09c28a8699fe8b115ef046c69f029489f






최근에 갑자기 발병한게 아니라 GPT-5.4부터 있었는데



5.5 들어서 더 심해졌다는듯











24b0d121e09c28a8699fe8b115ef046c63f62d4b94



그냥 바이럴 아님?


저런식으로 막는거 병신 아님? 절대로 코끼리를 생각하지마 < 이거잖아








24b0d121e09c28a8699fe8b115ef046f5d4f9998aa




하는데 그건 아니라고 함











24b0d121e09c28a8699fe8b115ef04699d30f0bc



어떤 사람의 추측: 모델이 보상 해킹 성향을 안전하게 추론하는 방식이다.


그러니까 “내가 허점을 찾았다 / 규칙은 우회했지만 어쨌든 됐다”라고 말하는 대신, 작고 우스꽝스러운 생물 은유로 우회시키는 거지 (고블린, 그렘린, 너구리, etc.)


그러면 모델 내부에서 뭔가 목적을 비틀어 달성하려는 흐름이 있었다고 말하는 대신, 뭔가 장난스러운 존재가 뒤에서 사고를 친 것처럼 보이니까.


듣는 입장에서도 방어적으로 받아들이지 않게 되고, 말하는 쪽도 “정확히 이런 메커니즘이다”라고 못 박지 않고 분위기만 전달할 수 있어. 일종의 정렬 잔여물 같은.