Skip to content

Speech synthesis

음성 합성(音聲合成, speech synthesis)은 말소리의 음파를 기계가 자동으로 만들어 내는 기술로, 간단히 말하면 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 다음, 부호를 붙여 합성기에 입력하였다가 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위로 만들어내는 기술이다. TTS(=Text-to-Speech)라고도 한다.

음성의 분절음을 합성하는 것은 어렵고 결과가 좋지 않기에, 분절음의 경계를 중심으로 앞 음성의 뒷부분과 뒤 음성의 앞부분을 함께 기록하여 이를 토대로 음성 합성을 하기도 한다. 이러한 이음 처리를 diphone 처리라고 한다.

음성 인식과 함께 번역 기계, 로봇 제조 기술 등 여러 곳에서 다양하게 쓰이고 있다.

Libraries

  • say converts text to audible speech using the GNUstep speech engine.
    • sudo apt-get install gnustep-gui-runtime
    • say "hello"
  • festival General multi-lingual speech synthesis system.
    • sudo apt-get install festival
    • echo "hello" | festival --tts
  • spd-say sends text-to-speech output request to speech-dispatcher
    • sudo apt-get install speech-dispatcher
    • spd-say "hello"
  • espeak is a multi-lingual software speech synthesizer.
    • sudo apt-get install espeak
    • espeak "hello"
  • ttspico
  • google-speech
  • SoX

Deep learning based

See also

Favorite site

Online tools