Audio → Audio token with Prosody, Timbre
Hierarchical Token Structure
- 긴 대화 생성 작업을 위해 600 bps 속도로 음향 토큰
- 토큰들이 시간 프레임에 따라 위계적으로 그룹화
google-research.github.io
Authors: Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, Marco Tagliasacchi
https://google-research.github.io/seanet/soundstream/examples/

Seonglae Cho