Deep Learning Backdoor

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2021 Mar 12 14:51
Editor
Edited
Edited
2024 Dec 20 23:56
Refs
Refs
poisoning 공격 분야에 해당하며, 딥러닝 모델의 학습 데이터에 중독된(poison) 데이터를 섞는 공격 유형
 
 
 
 

deep Learning side channel attacks

One-Shot Kill Attack (딥러닝 모델 백도어 공격 기술) "Poison Frogs!" | 논문 요약 및 코드 실습
오늘은 굉장히 재미있는 주제의 논문을 가지고 왔습니다. 딥러닝 모델에 대한 백도어(backdoor) 공격으로 창의적인 공격 기법을 제안한 논문입니다. ※ 본 영상은 논문 요약 및 코드 실습 영상입니다. 딥러닝 기술이 흥행함에 따라서 딥러닝 모델에 백도어(backdoor)를 심는 공격 기법이 제안되어 왔습니다. 이는 흔히 중독(poisoning) 공격 분야에 해당하며, 딥러닝 모델의 학습 데이터에 중독된(poison) 데이터를 섞는 공격 유형입니다. 이후에 중독된 딥러닝 모델에게 원하는 시점에 백도어를 보여줌으로써 딥러닝 모델의 오작동을 유도합니다. 오늘 리뷰할 논문은 One-Shot Kill Poison Attack을 제안한 논문입니다. 이 공격은 전이 학습(transfer learning)이 사용되는 상황에서 단 한 장의 중독된 이미지가 학습 데이터에 포함된다면, 테스트 시기에 한 장의 특정한 이미지가 들어갔을 때 원하는 분류 결과를 내도록 만듭니다. 실제로 전이 학습(transfer learning)은 소규모의 개인이나 기업에서 많이 사용된다는 점에서 본 논문은 공격은 현실적인 딥러닝 백도어 공격에 대한 위험성을 경고합니다. 더불어 검증되지 않은 데이터를 웹상에서 수집하여 무차별적으로 학습하는 것의 위험성을 경고하는 좋은 논문이라고 생각하여 가져왔습니다. ① 딥러닝 모델을 중독(poisoning)시키는 공격 유형에 대해 이해할 수 있습니다. ② 논문에서 제시한 One-Shot Kill Poison Attack을 이해하고 PyTorch 코드로 구현할 수 있습니다. ③ One-Shot Kill Poison Attack 논문(NIPS 2018)을 함께 읽어 보며 내용을 이해할 수 있습니다. 강의 자료: https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice 소스 코드: https://github.com/ndb796/Poison-Frogs-OneShotKillAttack-PyTorch
One-Shot Kill Attack (딥러닝 모델 백도어 공격 기술) "Poison Frogs!" | 논문 요약 및 코드 실습
UNIVERSAL JAILBREAK BACKDOORS FROM POISONED HUMAN FEEDBACK
RLHF
 
 

Recommendations