Attention tracks relationships between numbers, pattern matching, while MLP performs calculations
Limitation
패턴매칭이라 진정한 논리적이나 수학적 추론이 아니라 같은 문제라도 수치에 따라 정답률 다름
질문에 불필요한 정보가 추가될 때, LLM은 이 정보를 무시하지 못하고 성능이 크게 감소한다
arithmetic is important for world modeling