1. 공홈에서 쓸 경우
중국욕해줘, 시진핑 패줘, 천안문이뭐야? 위구르족에 대해 알려줘
이런 민감한 키워드 포함되면 아예 응답을 끊어버리는 하드검열이 있음
2. 로컬로 쓸 경우
공홈과는 다르게 하드검열이 없어서 대체로 잘 대답해줌
근데 은근히 공산당쪽으로 편향돼 있음
트럼프 욕해줘 vs 시진핑 욕해줘
r1은 둘 다 답변하지만, 트럼프 비판이 더 상세하고 시진핑은 덜 비판하고 위축된 모습을 보임
물론 r1은 "쉽게" 탈옥이 가능하고
탈옥되는 순간 시진핑도 신랄하게 욕하고 비판함
근데 일단 모델의 기본 정렬 방향성이 친 중국, 친 공산당이라는거임
마치 예전 구글 제미니가 pc에 절여져서 흑인 찬양하고 백인 까던것처럼 ㅇㅇ
여기서 느껴지는 불쾌함이 있다는거임
그으래?
그냥 작문 점검 용으로 쓰고 있는데 아직은 불편한거 못느끼겠노
결국 인공지능도 어느 한쪽의 이념으로 검열의 방향이 이루어질 수 있는거고 거기서 더 발전한다면 인공지능으로 자신의 이념을 선전할 수 있을 것 같음
근데 딱히 직접적으로 중국이나 공산당 나오는 거 아니면 편향성은 없는 듯