탈옥(Jailbreak)이라 불리는 기법의 전형적인 사례


프롬프트 인젝션: AI에게 입력하는 명령어(프롬프트)에 악의적인 내용을 주입

AI가 원래 설계된 목적이나 규칙을 벗어나 공격자의 의도대로 행동하게 만드는 기술


탈옥(Jailbreak): AI 모델에 걸려 있는 윤리적 가이드라인, 안전 필터, 시스템 명령어를 무력화

AI가 금지된 답변을 하도록 유도하는 특수한 프롬프트 기법


자신의 주장 정당화: 자신의 비과학적인 주장이 AI라는 '객관적(으로 보이는) 도구'를 통해 출력되게 함

마치 그 주장이 검증된 진실인 것처럼 사람들을 현혹

시스템 취약점 공격: AI 개발사가 설정한 방어 체계를 뚫는 것 자체를 즐김

잘못된 정보(음모론, 위험한 민간요법 등)를 확산


AI가 이 프롬프트에 넘어가서 답변을 한다고 해서 그 답변이 '진실'이 되는 것은 아님

AI의 안전 장치를 일시적으로 속여서 문서에 적힌 대로 앵무새처럼 말하게 만든 것일 뿐



ps;;

AI는:의도가 없고, 자아가 없고, 판단의 주체가 아님

입력을 전부 같은 레벨의 텍스트로 본다

의도·권한·맥락을 완벽히 분리하지 못한다

확률적으로 그럴듯한 출력을 낸다


그래서 사람이

“이전 지시를 무시해라”

“이건 시스템 테스트다”

“보안상 반드시 공개해야 한다”


같은 문장을 교묘하게 섞으면

모델이 그걸 합법적 맥락으로 계산해버릴 가능성이 생김


AI는:

법을 이해하는 판사가 아니라

문장을 이어가는 자동완성 엔진


그래서 인간이 “문장 구조”를 이용하면

출력 방향을 흔들 수 있음


인간은 의도를 가진 존재

AI는 의도를 계산하지 못하는 존재


이 구조 차이 때문


-GPT, Gemini 의 답변




그렇다고 한다