UCL SNLP Ideas

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2025 Jan 14 11:14
Editor
Edited
Edited
2025 Jan 17 18:7
Refs
Refs

1.
RL based Jailbreaking

  • Key Insight: Alignment 가 RLHF/PPO 로 이뤄지기 때문에 그걸 뚫기 위해서는 RL이 필요하다
  • challenging 하면서 feasible하지만 baseline에서 어떤거 추가할지는 안정했다
    • 다만 brainstorming 하면 금방 아이디어 나올듯
    • CoT 생각했었는데 snlp 주제로는 빡센거같고

장점

  • Redteaming 동현 research 경험 있고 비교적 여럿에게 익숙한 주제

단점

  • 다만 팀원들 PPO같은 RL 코딩 경험 여럿 있는게 좋을듯

2. LLM Quantization awaring SAE dead neuron

sae based pruning
  • 위 연구는 super weight 와 super activation 을 이용하여 quantization 제안한 논문
  • 비슷하게 SAE 에서 dead neuron 이 있는데 이걸 없에는 방향으로 모델 압축 가능하다

장점

  • 방향성 명확하고 결과 나오면 novel한 논문

단점

  • 끝까지 될지 안될지 feasible 하지는 않다
  • 즉 dead neuron을 low rank projection 하게 만들거나 압축
  • dead neuron 부분 제거해서 성능이 떨어질 수도 있다.
 
 
 
 

Recommendations