Skill discovery

Seonglae Cho
2024 May 18 9:31
2025 Jan 19 15:10

RL agent learns Skills (Options) without env reward

  • Information Theoretic discovery
    • Plot distribution over observations
    • Compute Entropy (How random, how broad it is) H(p(x))=Exp(x)[logp(x)]H(p(x)) = -E_{x\sim p(x)} [\log p(x)]

Maximum entropy RL

Knowing only one solution can easily fall into local optima and is not robust to environmental changes. However, action entropy is not the same as state entropy (
). Diverse actions do not guarantees diverse states.
We can lower diversity for a fixed skill zz, high diversity across options for controllable agent. (different skill should visit different state-action space)

Skill policy π(as,z)\pi(a | s,z)

Based on skill vector, the skill policy aligned to visit desired state.

Discriminator p^θ(zs)\hat p_\theta(z|s')

Goal of skill policy is minimize ϕ(s)z||\phi(s') - z|| which means maximize p(zϕ(s))p(z | \phi(s')) by settingr(s.z)=logp(zs)r(s'. z) = \log p(z | s')
  1. 스킬 정책의 목표는 ∣∣𝜙(𝑠′)−𝑧∣∣를 최소화하는 것으로, 이 상태 𝑠′의 임베딩 𝜙(𝑠′)와 스킬 𝑧 간의 거리를 최소화
  1. 이 목표는 𝑝(𝑧∣𝜙(𝑠′))를 최대화하는 것으로 이는 상태 𝑠′가 주어졌을 때 스킬 𝑧의 확률을 최대화
  1. 이를 위해 보상 함수를 𝑟(𝑠′,𝑧)=log⁡𝑝(𝑧∣𝑠′)로 설정합니다. 이렇게 하면 에이전트는 상태 𝑠′에서 스킬 𝑧를 선택할 때, 해당 스킬의 확률 로그 값을 보상으로 받음
LSD는 learning skill policy and ϕ(s)\phi(s) 에 distance 고려를 추가하기 위해 to maximize z\cdot z 항을 추가한다 (ϕ(s)ϕ(s))z(\phi(s') - \phi(s)) \cdot z and regulate ϕ(s)\phi(s) to reflect distance in ss: ϕ(s)ϕ(s)ss|| \phi (s') - \phi(s)||\le||s' - s|| preventing ϕ(s)\phi(s) becoming infinitely large.
쉽게말해 state당 skill 할당 확률을 높인다는 말은 다른 스킬의 확률을 줄인다는 말로, state와 skill을 엮어서 잘 분리시킨다고 보면 된다. which is same as maximizing
Mutual information
다만 distance based skill discovery의
Skill discovery Methods

Discovering distinct skills by maximizing

  • Multiple ways to approximate MI
  • Only small state change can maximize MI
  • Any distance can be used to improve exploration
  • May not learn static skills because distance factor encourage more and more

