VALL-E
VALL-E - Microsoft가 만든 음성합성을 위한 언어 모델
Features
- 트랜스포머 기반의 Text-to-Speech 모델
- 어떤 음성이든 3초만 있으면 그 음성으로 합성 가능
- 최신 Zero-shot TTS들보다 훨씬 자연스럽고 화자와 유사하며, 화자의 감정 및 음향 환경도 보존
- 예전 파이프라인은 phoneme(음소) → mel-spectrogram → waveform 였는데,
- VALL-E는 phoneme → discrete code → waveform
- 다양한 음성 합성 어플리케이션 및 GPT-3 같은 AI 모델과 결합 가능