Speech synthesis
음성 합성(音聲合成, speech synthesis)은 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이다. TTS(=Text-to-Speech)라고도 한다.
음성의 분절음을 합성하는 것은 어렵고 결과가 좋지 않기에, 분절음의 경계를 중심으로 앞 음성의 뒷부분과 뒤 음성의 앞부분을 함께 기록하여 이를 토대로 음성 합성을 하기도 한다. 이러한 이음 처리를 diphone 처리라고 한다.
음성 인식과 함께 번역 기계, 로봇 제조 기술 등 여러 곳에서 다양하게 쓰이고 있다.
Libraries
- say converts text to audible speech using the GNUstep speech engine.
-
sudo apt-get install gnustep-gui-runtime
-
say "hello"
-
- festival General multi-lingual speech synthesis system.
-
sudo apt-get install festival
-
echo "hello" | festival --tts
-
- spd-say sends text-to-speech output request to speech-dispatcher
-
sudo apt-get install speech-dispatcher
-
spd-say "hello"
-
- espeak is a multi-lingual software speech synthesizer.
-
sudo apt-get install espeak
-
espeak "hello"
-
- ttspico
- google-speech
- SoX
Deep learning based
- Multi-Speaker Tacotron in TensorFlow
- Tacotron - Towards End-to-End Speech Synthesis
- mozilla/TTS - TTS: Text-to-Speech for all.
- Bark - 트랜스포머 기반의 Text-To-Audio 모델
- MusicLM - Google이 1월에 발표한 Text-To-Music 모델
- Massively Multilingual Speech - Meta가 공개한 1000+개 언어 음성 기술 프로젝트
- Voicebox - Meta, 음성용 Generative AI 모델 Voicebox 공개
- Voice-Pro - 음성인식, 번역, 음성합성을 지원하는 Gradio WebUI
- Kokoro-82M - 모델로 전자책을 오디오북으로 변환하기
- Zonos - 고품질 오픈 가중치 음성 합성 모델
- Audiblez - 전자책을 오디오북으로 변환하는 도구
- Kokoro - 82M 모델로 전자책을 오디오북으로 변환하기
- Spark TTS - LLM-based efficient text-to-speech AI model
- Conversational Speech Model (CSM)
한국어 TTS
- 한국어 오픈소스 TTS 4가지 비교 | Zonos, Metis, CosyVocie2, GPT-soVITs - YouTube
- Zonos
- Metis
- CosyVocie2
- GPT-soVITs
See also
- 음성 인식 (Speech recognition) (Speech-to-Text; STT)
- 음성 합성 (Speech synthesis) (Text-to-Speech; TTS)
- Voice-To-Voice
- Voice Changer
- Deep Voice
Favorite site
- Wikipedia (en) Speech synthesis
- 인공지능 준비-TTS(Text-to-Speech)
- How to text-to-speech output using command-line?
- 한국어 TTS 대결 | 타입캐스트 vs 일레븐랩스 vs 수퍼톤 vs Hailuo AI - YouTube
Online tools
- 네이버 파파고 - 음성이 자연스럽고 5000자까지 입력가능
- Best Text-to-Speech Demo: Create Talking Avatars and Online Characters | Oddcast TTS Demo - 다양한 음성선택이 가능. 600자까지 입력가능
- Text To Speech in a Variety of Languages and Dialects Voices - 우리가 아는 그 목소리. 오디오 저장도 가능