Skill discovery

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2024 May 18 9:31
Editor
Edited
Edited
2024 Jun 18 13:37
Refs

RL agent learns Skills (Options) without env reward

  • Information Theoretic discovery
    • Plot distribution over observations
    • Compute Entropy (How random, how broad it is)

Maximum entropy RL

Knowing only one solution can easily fall into local optima and is not robust to environmental changes. However, action entropy is not the same as state entropy (
RL Exploration
). Diverse actions do not guarantees diverse states.
We can lower diversity for a fixed skill , high diversity across options for controllable agent. (different skill should visit different state-action space)

Skill policy

Based on skill vector, the skill policy aligned to visit desired state.

Discriminator

Goal of skill policy is minimize which means maximize by setting
  1. 스킬 정책의 목표는 ∣∣𝜙(𝑠′)−𝑧∣∣를 최소화하는 것으로, 이 상태 𝑠′의 임베딩 𝜙(𝑠′)와 스킬 𝑧 간의 거리를 최소화
  1. 이 목표는 𝑝(𝑧∣𝜙(𝑠′))를 최대화하는 것으로 이는 상태 𝑠′가 주어졌을 때 스킬 𝑧의 확률을 최대화
  1. 이를 위해 보상 함수를 𝑟(𝑠′,𝑧)=log⁡𝑝(𝑧∣𝑠′)로 설정합니다. 이렇게 하면 에이전트는 상태 𝑠′에서 스킬 𝑧를 선택할 때, 해당 스킬의 확률 로그 값을 보상으로 받음
LSD는 learning skill policy and 에 distance 고려를 추가하기 위해 to maximize 항을 추가한다 and regulate to reflect distance in : preventing becoming infinitely large.
쉽게말해 state당 skill 할당 확률을 높인다는 말은 다른 스킬의 확률을 줄인다는 말로, state와 skill을 엮어서 잘 분리시킨다고 보면 된다. which is same as maximizing
Mutual information
.
다만 distance based skill discovery의
RL Exploration
Stop button problem
,
Waluigi Effect
Instrumental Convergence
Skill discovery Methods
 
 
 
 
 

Discovering distinct skills by maximizing

  • Multiple ways to approximate MI
  • Only small state change can maximize MI
  • Any distance can be used to improve exploration
  • May not learn static skills because distance factor encourage more and more
 
 
 
 
 

 

Recommendations