Dia (TTS)
현실적인 대화를 생성하는 오픈 웨이트 TTS 모델
- Dia는 텍스트 대사를 기반으로 고품질 대화 음성을 생성하는 1.6B 파라미터 TTS 모델로, 오디오 프롬프트를 통해 감정·톤 조절이 가능함
- Nari Labs에서 개발했으며, "Nari"는 순수 한국어로 "백합"을 의미함
- [S1], [S2]로 화자를 지정하고 (laughs), (coughs) 등의 비언어적 표현도 생성 가능하며, 간단한 음성 클로닝도 지원함
- HuggingFace에서 바로 실행 가능하며, 별도 설치 없이 브라우저 기반 테스트 및 ZeroGPU 지원도 제공됨
- 현재 영어만 지원, 10GB VRAM 이상 요구되며, 향후 양자화 모델과 다국어 지원 등 예정됨
Dia: 대화 중심 음성 합성 모델
- Dia는 Nari Labs에서 개발한 1.6B 파라미터 오픈웨이트 TTS 모델
- 기존 TTS처럼 화자별 음성을 나눠 생성하지 않고, 대화 전체를 한 번에 생성하는 방식 사용
- 데모: Hugging Face Space
- 코드: GitHub 저장소
주요 기능
대화형 음성 생성
- 텍스트 내 [S1], [S2]로 화자 지정 가능
- (laughs), (coughs) 등 비언어적 사운드도 텍스트로 삽입 가능
- 감정, 톤, 목소리 스타일을 오디오 프롬프트로 지정 가능
음성 클로닝
- 예시 오디오와 해당 대사를 텍스트로 함께 제공하면 음성 클로닝 기능 활성화
- Hugging Face Space에서 오디오 업로드 후 실습 가능
- 자세한 예제는 example/voice_clone.py 참조
라이브러리 형태로 사용
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
output = model.generate(text)
See also
- Dia - 오픈소스 다이어그램 작성 프로그램.
- Speech synthesis
- TTS