Leela is a transformer that treats every chessboard square like a token in language models
post-LN encoder-only transformer
Mechanistic interpretability
look-ahead strategy in Transformer model
미래의 이동을 예측하고 정보들을 시간에 따라 전달하는지
Layer 12 H 12 attention head 미래 이동의 타겟 칸에서 중요한 정보를 현재 이동의 타겟 칸으로 전달하는 역할