전부 가상 데이터일때는 비디오 생성 시 같이 만드는 게 당여닣 성능 좋을거고, 이런 구조의 모델은 오디오 없는 비디오에만 유용할듯Video 2 Audio Models Generating audio for videoVideo-to-audio research uses video pixels and text prompts to generate rich soundtrackshttps://deepmind.google/discover/blog/generating-audio-for-video/Video to Sound Effects Generator | ElevenLabsGenerate a custom AI sound effect for your video by ElevenLabshttps://www.videotosoundeffects.com/