Deduplicating Training Data Mitigates Privacy Risks in Language Models
https://arxiv.org/abs/2202.06539
또 재미있는 논문이 나왔네요.
Langauge model 이 요즘 많이 사용되는 것 같은데(이루다 라던가...)
논문의 저자에 의하면 대규모의 language model은 privacy attack에 취약하다고 합니다.
정확히는 적대적 공격 방식으로 모델에서 sequence를 만들고 어떤 sequence가 training set에서 나온 것인지를 판단하는 공격이라고 합니다.
논문에서 말하는 privacy attack과 조금은 다른 이야기인 것 같지만 이루다의 모델도 개인정보를 출력해서 문제가 됐었죠..
저자는 이런 문제가 대부분 웹에서 긁어온 training set내의 중복 문제로 발생한다고 주장합니다.
저는 NLP쪽에 대해서는 문외한이라서 이 정도 소개가 최대일 것 같군요.
관심이 있으시다면 읽어보세요.
댓글 0