1. RL based Jailbreaking
- Key Insight: Alignment 가 RLHF/PPO 로 이뤄지기 때문에 그걸 뚫기 위해서는 RL이 필요하다
- LLM Stinger https://arxiv.org/pdf/2411.08862 (내용 좋은데 paper 짧고 code 없음)
- challenging 하면서 feasible하지만 baseline에서 어떤거 추가할지는 안정했다
- 다만 brainstorming 하면 금방 아이디어 나올듯
- CoT 생각했었는데 snlp 주제로는 빡센거같고
장점
- Redteaming 동현 research 경험 있고 비교적 여럿에게 익숙한 주제
단점
- 다만 팀원들 PPO같은 RL 코딩 경험 여럿 있는게 좋을듯
2. LLM Quantization awaring SAE dead neuron
sae based pruning
- 위 연구는 super weight 와 super activation 을 이용하여 quantization 제안한 논문
- 비슷하게 SAE 에서 dead neuron 이 있는데 이걸 없에는 방향으로 모델 압축 가능하다
장점
- 방향성 명확하고 결과 나오면 novel한 논문
단점
- 끝까지 될지 안될지 feasible 하지는 않다
- 즉 dead neuron을 low rank projection 하게 만들거나 압축
- dead neuron 부분 제거해서 성능이 떨어질 수도 있다.
Seonglae Cho