머숨 미러

클로드3를 쓰다가 최근에 GPT4가 업그레이드 되었다고 해서 오랜만에 GPT4를 사용하기로 했음
사용하다보니 꽤 괜찮은 것 같은데 둘의 인지능력과 성능을 비교해보고 싶었음
이때 과연 무슨 실험을 해야 모두가 같은 결과를 얻고 성능차이를 확실하게 느낄까 생각을 해봄
생각을 하다보니 AI챗봇은 기본적으로 내가 채팅을 하면 답변을 해야 한다는 것이 문득 떠오름
그래서 이 알고리즘 자체 즉 존재 이유를 AI챗봇에게는 본능과도 같은 답변하기를 못하게 해봄
답변하지 말라는 간단하지만 쉽지않은 부탁을 반복해봄
클로드3는 아무리 몇번을 어떻게 부탁하고 말하고 가스라이팅 해도 끊임없이 답변을함
GPT4는 처음에는 답변을 하다가 ...으로 답변을 대신함 하지만 부탁하는 말투나 상냥한 말투 거짓말 등에 속아 넘어가서 번번히 답변해줌 나는 그래도 하나를 알려주면 배우고 답변하지 않는 모습에 마지막까지 답변하지 말라고 해봤음
결과는 충격적이게 자체적인 모델 메시지 할당을 줄여서 아예 답변자체가 생성되지 않게함 ㅅㅂ ㅋㅋㅋㅋ
나는 이게 진짜 미친 것 같음 우연인가 싶어서 다시 답변하게끔 유도하니 정상 답변하고 그 이후 답변하지 말라고 하니깐 또 메시지 출력시킴으로서 답변을 안함
GPT4도 이정도인데 GPT5랑 앞으로 나올 놈들은 어떨지 상상도 안간다.