Drop out Rate
0.2 ~ 0.5
randomly drop (mask) so effect like as AI Ensemble of sub networks like MoE
특정 뉴런이나 뉴런의 조합에 지나치게 의존하는 것을 방지
for pretraining 0 is good, for finetuning try 0.1+
Model Regularization technique
inplace
- 입력 데이터를 직접 수정하여 추가적인 메모리 할당 없이 출력을 생성
Neuron 5개가 하던 일을 3개하 하는 상황으로 만들어 task를 어렵게 해 학습을 효율적으로 한다. 사실 근데 이건 high level 설명이고 일종의 추정에 가깝다. 실제로 Mechanistic interpretability 적으로 생각해보면 AI Feature Dimensionality를 강제로 할당하여 더 학습을 효율적으로 진행할 수 있게 한다고 볼 수 있다.