UCL SNLP Ideas

Creator

Creator

Seonglae Cho

Created

Created

2025 Jan 14 11:14

Editor

Editor

Seonglae Cho

Edited

Edited

2025 Jan 17 18:7

Refs

Refs

1.
RL based Jailbreaking

Key Insight: Alignment 가 RLHF/PPO 로 이뤄지기 때문에 그걸 뚫기 위해서는 RL이 필요하다

LLM Stinger https://arxiv.org/pdf/2411.08862 (내용 좋은데 paper 짧고 code 없음)

challenging 하면서 feasible하지만 baseline에서 어떤거 추가할지는 안정했다

다만 brainstorming 하면 금방 아이디어 나올듯
CoT 생각했었는데 snlp 주제로는 빡센거같고

장점

Redteaming 동현 research 경험 있고 비교적 여럿에게 익숙한 주제

단점

다만 팀원들 PPO같은 RL 코딩 경험 여럿 있는게 좋을듯

2. LLM Quantization awaring SAE dead neuron

sae based pruning

https://arxiv.org/abs/2411.07191

위 연구는 super weight 와 super activation 을 이용하여 quantization 제안한 논문

비슷하게 SAE 에서 dead neuron 이 있는데 이걸 없에는 방향으로 모델 압축 가능하다

장점

방향성 명확하고 결과 나오면 novel한 논문

단점

끝까지 될지 안될지 feasible 하지는 않다

즉 dead neuron을 low rank projection 하게 만들거나 압축

dead neuron 부분 제거해서 성능이 떨어질 수도 있다.

Recommendations

///////