Skip to content

VALL-E

VALL-E - Microsoft가 만든 음성합성을 위한 언어 모델

Features

트랜스포머 기반의 Text-to-Speech 모델
어떤 음성이든 3초만 있으면 그 음성으로 합성 가능
최신 Zero-shot TTS들보다 훨씬 자연스럽고 화자와 유사하며, 화자의 감정 및 음향 환경도 보존
예전 파이프라인은 phoneme(음소) → mel-spectrogram → waveform 였는데,
VALL-E는 phoneme → discrete code → waveform
다양한 음성 합성 어플리케이션 및 GPT-3 같은 AI 모델과 결합 가능

See also

Favorite site

VALL-E web site