Speech synthesis
음성 합성(音聲合成, speech synthesis)은 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이다. TTS(=Text-to-Speech)라고도 한다.
음성의 분절음을 합성하는 것은 어렵고 결과가 좋지 않기에, 분절음의 경계를 중심으로 앞 음성의 뒷부분과 뒤 음성의 앞부분을 함께 기록하여 이를 토대로 음성 합성을 하기도 한다. 이러한 이음 처리를 diphone 처리라고 한다.
음성 인식과 함께 번역 기계, 로봇 제조 기술 등 여러 곳에서 다양하게 쓰이고 있다.
Libraries
- say converts text to audible speech using the GNUstep speech engine.
-
sudo apt-get install gnustep-gui-runtime
-
say "hello"
-
-
sudo apt-get install festival
-
echo "hello" | festival --tts
-
sudo apt-get install speech-dispatcher
-
spd-say "hello"
-
sudo apt-get install espeak
-
espeak "hello"
Deep learning based
- Multi-Speaker Tacotron in TensorFlow
See also
- 음성 인식 (Speech recognition) (Speech-to-Text; STT)
- 음성 합성 (Speech synthesis) (Text-to-Speech; TTS)
- Voice-To-Voice
- Voice Changer
- Deep Voice
Favorite site
- Wikipedia (en) Speech synthesis
- 인공지능 준비-TTS(Text-to-Speech)
- How to text-to-speech output using command-line?
- 한국어 TTS 대결 | 타입캐스트 vs 일레븐랩스 vs 수퍼톤 vs Hailuo AI - YouTube
Online tools
- 네이버 파파고 - 음성이 자연스럽고 5000자까지 입력가능
- Best Text-to-Speech Demo: Create Talking Avatars and Online Characters | Oddcast TTS Demo - 다양한 음성선택이 가능. 600자까지 입력가능
- Text To Speech in a Variety of Languages and Dialects Voices - 우리가 아는 그 목소리. 오디오 저장도 가능