Skip to content

Dia (TTS)

현실적인 대화를 생성하는 오픈 웨이트 TTS 모델

  • Dia는 텍스트 대사를 기반으로 고품질 대화 음성을 생성하는 1.6B 파라미터 TTS 모델로, 오디오 프롬프트를 통해 감정·톤 조절이 가능함
  • Nari Labs에서 개발했으며, "Nari"는 순수 한국어로 "백합"을 의미함
  • [S1], [S2]로 화자를 지정하고 (laughs), (coughs) 등의 비언어적 표현도 생성 가능하며, 간단한 음성 클로닝도 지원함
  • HuggingFace에서 바로 실행 가능하며, 별도 설치 없이 브라우저 기반 테스트 및 ZeroGPU 지원도 제공됨
  • 현재 영어만 지원, 10GB VRAM 이상 요구되며, 향후 양자화 모델과 다국어 지원 등 예정됨

Dia: 대화 중심 음성 합성 모델

  • Dia는 Nari Labs에서 개발한 1.6B 파라미터 오픈웨이트 TTS 모델
  • 기존 TTS처럼 화자별 음성을 나눠 생성하지 않고, 대화 전체를 한 번에 생성하는 방식 사용
  • 데모: Hugging Face Space
  • 코드: GitHub 저장소

주요 기능

대화형 음성 생성

  • 텍스트 내 [S1], [S2]로 화자 지정 가능
  • (laughs), (coughs) 등 비언어적 사운드도 텍스트로 삽입 가능
  • 감정, 톤, 목소리 스타일을 오디오 프롬프트로 지정 가능

음성 클로닝

  • 예시 오디오와 해당 대사를 텍스트로 함께 제공하면 음성 클로닝 기능 활성화
  • Hugging Face Space에서 오디오 업로드 후 실습 가능
  • 자세한 예제는 example/voice_clone.py 참조

라이브러리 형태로 사용

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)

See also

Favorite site