Loading views...

ICLR 2026 first Day

Date
Date
2026 Apr 23 0:0
Created by
Created by
Seonglae ChoSeonglae Cho
Created time
Created time
2026 Apr 23 12:35
Last edited by
Last edited by
Seonglae ChoSeonglae Cho
Last edited time
Last edited time
2026 May 29 17:56
Refs
Refs
드디어 첫숙소 푹자고 가는 첫 iclr day. 생각보다 금방 가고 도착한 곳 풍경도 미친듯이 좋다. 분위기와 헷살 압살에 첫 키노트도 나름 인상적이다. 역시 첫키노트는 아무나 하는게 아니군 하며 음식 커피도 마음에 들고 신나게 돌아다닌다. 이때까지는 체력도 남아서 웃으며 한국인 미팅도 혹시해서 걸어가보는데 임은우 중학교 친구가 나를 부르는것이다. 참 이런 레전드 사건이 발생하다니. 여튼 친구 자식이 저녁 버리고 가네 뭐 얘때문에 춤 바로앞 직관도 메인 놓치고 했지만 마지막에 기차놀이 끼여서도 잘하고 초반에 손잡고 춤도 추고 행복하게 노니다가 숙소도 저녁도 잘 먹고 클레이튼 리시 일함과 잘 있다 간다. 이때 깨달은 점은 역시 남과 함께 있더라도 그것에 휘둘리지 말고, 내가 하고 싶은 것을 즐기자는 것이다. 예의차리다가 잃은 기회가 치명적일 수 있고 다시 갖기 위해서는 꽤 큰 노력이 필요할 수 있다는 점. 그래도 나름 맥도날드도 가서 첫숙소에 저장해두고 레블론 밤도 돌아다니며 들어간다. 돌아갈때는 클레이튼 친구가 브라질사는친구인데 태워줘서 호텔 머무는 곳 숙소비도 싸다고 알려주고 이런저런 좁지만 재밌는 차 통해서 온다.

First keynote

  • motivation behavior information
  • embodyment bias expectation persona dog/humanoid
  • only few wants humanoid?
  • personality matching is important as a part of alignment vertical
  • why you do ai

LLM reasoning oral

overthinking reduction @router rl

  • decs
    • Decoupled Reward
    • Curriculum Data Scheduling
  • nrp detector, cnk?
  • baselines
    • tlmre
    • thinkprune
    • adaptthink
    • LC-R1
  • takeawawy
    • efficient reasoning should penalize redunc=dancy not reasoning itself
    • decs separte them out
    • 기존 length penalty 기반 방식들은 trajectory-level reward와 token-level optimization 사이의 misalignment 때문에 성능 저하를 유발한다고 저자들은 지적한다. 저자들은 두 가지 이론적 결함을 밝혀낸다
    • (1) 올바른 trajectory 내의 high-entropy exploratory token이 잘못 penalize되는 현상, (2) Necessary Reasoning Prefix(NRP) 이후 redundant token이 오히려 positive advantage로 보상되는 현상.

belief deviation

  • btr entroy?
  • relation between memorization and exploration - summarizating form past observation on environments

MemAgent

  • hqarl good ddataset?
  • condext distribution

dense Retreival learner - next chunk prediction as a retrieval loss

  • llm learning token is token level prefix ntp
  • retrieval is chunk level with ntp on other thinkgs

AI Task vector
with
Model Merging

good

CRV

good

Second Oral

associate tokens

  • can we approximate the parameters?
    • bigram
    • interchangability
    • context

Sequences of Logits Reveal the Low Rank Structure of Language Models

Causal Structure Learning in Hawkes Processes

  • causal discovery in partially observed multivariate hawkes process
  • continuous to discrete reduction using bins?

temporal SAE

leveraging sequential property of language model
  • single level token
  • temporal features are naturally in-distribution for steering over generation
optimal transpork
hawkes process
causality and temporal smooth

eigenbench

  • human evaluation does not really scales
  • an unbiased metric for value alignment
 
 
 
 
 
 

Recommendations