Speech synthesis

음성 합성(音聲合成, speech synthesis)은 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이다. TTS(=Text-to-Speech)라고도 한다.

음성의 분절음을 합성하는 것은 어렵고 결과가 좋지 않기에, 분절음의 경계를 중심으로 앞 음성의 뒷부분과 뒤 음성의 앞부분을 함께 기록하여 이를 토대로 음성 합성을 하기도 한다. 이러한 이음 처리를 diphone 처리라고 한다.

음성 인식과 함께 번역 기계, 로봇 제조 기술 등 여러 곳에서 다양하게 쓰이고 있다.

Libraries

say converts text to audible speech using the GNUstep speech engine.
- sudo apt-get install gnustep-gui-runtime
- say "hello"
festival General multi-lingual speech synthesis system.
- sudo apt-get install festival
- echo "hello" | festival --tts
spd-say sends text-to-speech output request to speech-dispatcher
- sudo apt-get install speech-dispatcher
- spd-say "hello"
espeak is a multi-lingual software speech synthesizer.
- sudo apt-get install espeak
- espeak "hello"
ttspico
google-speech
SoX

Deep learning based

Multi-Speaker Tacotron in TensorFlow
- https://carpedm20.github.io/tacotron/
- https://github.com/carpedm20/multi-speaker-tacotron-tensorflow
- 딥러닝 음성합성 multi-speaker-tacotron(tacotron+deepvoice)설치 및 사용법
Tacotron - Towards End-to-End Speech Synthesis
- https://arxiv.org/abs/1703.10135
- https://github.com/keithito/tacotron
mozilla/TTS - TTS: Text-to-Speech for all.
Bark - 트랜스포머 기반의 Text-To-Audio 모델
MusicLM - Google이 1월에 발표한 Text-To-Music 모델
Massively Multilingual Speech - Meta가 공개한 1000+개 언어 음성 기술 프로젝트
Voicebox - Meta, 음성용 Generative AI 모델 Voicebox 공개
Voice-Pro - 음성인식, 번역, 음성합성을 지원하는 Gradio WebUI
Kokoro-82M - 모델로 전자책을 오디오북으로 변환하기
Zonos - 고품질 오픈 가중치 음성 합성 모델
Audiblez - 전자책을 오디오북으로 변환하는 도구
Kokoro - 82M 모델로 전자책을 오디오북으로 변환하기
Spark TTS - LLM-based efficient text-to-speech AI model
Conversational Speech Model (CSM)
Dia (TTS) - 현실적인 대화를 생성하는 오픈 웨이트 TTS 모델
NotebookLM - 사용자의 자료를 팟캐스트 스타일의 대화형 오디오 콘텐츠로 생성해 주는 오디오 개요(Audio Overviews)
RealtimeVoiceChat - 약 500ms 지연 시간의 실시간 AI 음성 채팅
Eleven v3 — 가장 표현력이 뛰어난 텍스트-음성 변환 모델
Kitten TTS - CPU만으로 동작하는 25MB 오픈소스 TTS 모델
Abogen - EPUB, PDF, 텍스트에서 오디오북 생성
VibeVoice - Microsoft의 차세대 오픈소스 음성 합성 모델
Handy – Rust로 작성된 무료 오픈소스 음성 인식 앱
Pocket TTS - CPU에 목소리를 부여하는 고품질 TTS
MimikaStudio - 맥용 음성 복제 및 TTS 오픈소스
VoxCPM2 - 실제 음성과 비슷한 음성 복제 가능한 다국어 음성 합성 오픈소스

한국어 TTS

한국어 오픈소스 TTS 4가지 비교 | Zonos, Metis, CosyVocie2, GPT-soVITs - YouTube
Zonos
Metis
CosyVocie2
GPT-soVITs

Favorite site

Online tools

네이버 파파고 - 음성이 자연스럽고 5000자까지 입력가능
Best Text-to-Speech Demo: Create Talking Avatars and Online Characters | Oddcast TTS Demo - 다양한 음성선택이 가능. 600자까지 입력가능
Text To Speech in a Variety of Languages and Dialects Voices - 우리가 아는 그 목소리. 오디오 저장도 가능