Audio → Audio token with Prosody, Timbre Hierarchical Token Structure긴 대화 생성 작업을 위해 600 bps 속도로 음향 토큰토큰들이 시간 프레임에 따라 위계적으로 그룹화 google-research.github.ioAuthors: Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, Marco Tagliasacchihttps://google-research.github.io/seanet/soundstream/examples/arxiv.orghttps://arxiv.org/pdf/2107.03312