Skip to content

Dia (TTS)

현실적인 대화를 생성하는 오픈 웨이트 TTS 모델

Dia는 텍스트 대사를 기반으로 고품질 대화 음성을 생성하는 1.6B 파라미터 TTS 모델로, 오디오 프롬프트를 통해 감정·톤 조절이 가능함
Nari Labs에서 개발했으며, "Nari"는 순수 한국어로 "백합"을 의미함
[S1], [S2]로 화자를 지정하고 (laughs), (coughs) 등의 비언어적 표현도 생성 가능하며, 간단한 음성 클로닝도 지원함
HuggingFace에서 바로 실행 가능하며, 별도 설치 없이 브라우저 기반 테스트 및 ZeroGPU 지원도 제공됨
현재 영어만 지원, 10GB VRAM 이상 요구되며, 향후 양자화 모델과 다국어 지원 등 예정됨

Dia: 대화 중심 음성 합성 모델

Dia는 Nari Labs에서 개발한 1.6B 파라미터 오픈웨이트 TTS 모델
기존 TTS처럼 화자별 음성을 나눠 생성하지 않고, 대화 전체를 한 번에 생성하는 방식 사용
데모: Hugging Face Space
코드: GitHub 저장소

주요 기능

대화형 음성 생성

텍스트 내 [S1], [S2]로 화자 지정 가능
(laughs), (coughs) 등 비언어적 사운드도 텍스트로 삽입 가능
감정, 톤, 목소리 스타일을 오디오 프롬프트로 지정 가능

음성 클로닝

예시 오디오와 해당 대사를 텍스트로 함께 제공하면 음성 클로닝 기능 활성화
Hugging Face Space에서 오디오 업로드 후 실습 가능
자세한 예제는 example/voice_clone.py 참조

라이브러리 형태로 사용

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)

See also

Dia - 오픈소스 다이어그램 작성 프로그램.
Speech synthesis
TTS

Favorite site

Github - nari-labs/dia