드디어 서핑 데이다. 아침일찍 어제 노겹게 춤추던 몸둥아리 이끌고 일어난 날씨는 미쳤다. 아침부터 나와 마중 좀 늦어서 빡치지만 시간맞춰서 잘 간다. 서핑 흑인 작은 뚱뚱형이라 걱정했지만 서핑 고인물처럼잘가르쳐주고 장소가 깡패다. 물도 파도도 괜찮고 쉬운 파도에 매번 일어서는 기염을 토한다. 레전드 풍경에 리우 최애장소 한번 갱긴하고 운동좀 하다 돌아와서 컨퍼런스로 다시 간다. 얼른 논문 빨리 체크만 하고 클레이튼 친구들이랑 점심 먹으며 heart of the parlm 이랑 은우랑 소고기 스테이크랑 해서 맛있게 먹는다. 돌아와서 또 열심히 논문들 보며 신기한건 파울라나 진짜 유명한 사람들의 논문들이 실제로 있고 내가 감명깊게 읽었던 사람을 실제로 만나 악수하고 아는척할수 있다는 점이다. 여튼 오늘 저녁은 점심 만난 호날도 가족이랑 호수 군인용 레스토랑이ㄹ해야하나 체육시설 가서 밥먹는거다. 뽈뽀는 별로였지만 구아바요거트아이스크림이 레전드였다. 가족들도 너무 잘 대해주고 하얀 옷에 사람들 조안 여친등 대화도 많이 하고 호날도 가족 딸 부모님 번역기등 모두 잘 대해줘서 고맙고 기분좋은 하루 마무리였다.
Hallucination begins where Saliency drops
- hallucination은 “이전 토큰들과의 연결(grounding)”이 약해질 때 발생
- 이를 **saliency (attention × gradient)**로 측정
- SGRS (Saliency-Guided Rejection Sampling)
- saliency 낮은 후보 토큰은 생성 전에 제거 → hallucination 유발 토큰 사전 차단
- LocoRE (Local Coherence Reinforcement)
- 최근 토큰들에 attention 강화 → context 유지 (forgetting 방지)
saliency로 감지하고, filtering + attention 강화로 해결
EditBench
in the wild data can be used to create real world benchmarks and leads to new insights
Agent Data Protocol
AstaBench
Symbolic Model
- emergent symbol-like mechanism in VLMs
- VLM(vision-language model)도 **LLM처럼 “symbol-like mechanism”**을 사용함
- 특히 **position ID (공간 인덱스)**를 이용해 객체를 구분하고 feature를 묶음 (binding 문제 해결)
VLM의 **binding error (색/객체 혼동)**는 → 이 position ID 메커니즘 실패 때문임
identification of the 3-stage symbolic circuit
- ID Retrieval: 텍스트에서 언급된 객체 → 이미지 위치 ID 찾음
- ID Selection: 다음에 말할 대상 객체의 위치 ID 선택
- Feature Retrieval: 그 ID를 이용해 색/모양 같은 feature 가져옴
RSA (Representational Similarity Analysis)
“이 layer가 뭘 구분 기준으로 쓰고 있냐?”를 similarity 패턴으로 측정하는 방법. 모델 내부 representation이 무슨 정보를 담고 있는지 보는 방법
- 여러 입력 샘플에 대해 → 각 샘플의 hidden state 추출
- 샘플 간 유사도 행렬(RSM) 계산
- 예: cosine similarity
- 비교 대상 두 개 만듦
- (A) position 기준 similarity
- (B) feature 기준 similarity (색, 모양)
- 모델 RSM vs (A), (B)를 각각 비교 (correlation)
- position RSM과 더 비슷하면 → “위치 정보 encode 중”
- feature RSM과 더 비슷하면 → “속성 정보 encode 중”
also causal validation via id patching
Seonglae Cho