Speech recognition
음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말한다. STT(Speech-to-Text)라고도 한다. 키보드 대신 문자를 입력하는 방식으로 주목을 받고 있다. 로봇, 텔레매틱스 등 음성으로 기기제어, 정보검색이 필요한 경우에 응용된다. 대표적인 알고리즘은 HMM(Hidden Markov Model)으로서, 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향모델을 구성하며 말뭉치 수집을 통하여 언어모델을 구성한다.
미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 화자 인식이라고 한다.
Categories
- 음성 인식 (Speech recognition) (Speech-to-Text; STT)
- 음성 합성 (Speech synthesis) (Text-to-Speech; TTS)
- Voice Changer
- 자동 음성 인식 (ASR)
- 음성 언어 식별 (LID)
- 음성 감정 인식 (SER)
- 오디오 이벤트 감지 (AED)
Project
- Kaldi
- Omni SenseVoice - 단어별 타임스탬프 가능한 고속 음성 인식
- Voice-Pro - 음성인식, 번역, 음성합성을 지원하는 Gradio WebUI