Speech recognition

Speech recognition (automatic speech recognition (ASR), computer speech recognition, or speech-to-text (STT)) is a sub-field of computational linguistics concerned with methods and technologies that translate spoken language into text or other interpretable forms.

음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말한다. STT(Speech-to-Text)라고도 한다. 키보드 대신 문자를 입력하는 방식으로 주목을 받고 있다. 로봇, 텔레매틱스 등 음성으로 기기제어, 정보검색이 필요한 경우에 응용된다. 대표적인 알고리즘은 HMM(Hidden Markov Model)으로서, 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향모델을 구성하며 말뭉치 수집을 통하여 언어모델을 구성한다.

미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 화자 인식이라고 한다.

Project

Kaldi
Omni SenseVoice - 단어별 타임스탬프 가능한 고속 음성 인식
Voice-Pro - 음성인식, 번역, 음성합성을 지원하는 Gradio WebUI
Shezem-rs - Rust 기반의 고속 오디오 지문 인식 시스템
RealtimeVoiceChat - 약 500ms 지연 시간의 실시간 AI 음성 채팅
Caret - 캐럿 2.0: 더욱 정확한 대화 내용 기록, 모바일 앱
Voxtral transcribes - Mistral 의 음성-텍스트 변환 모델
FreeFlow - 음성 받아쓰기 앱 오픈소스
Moonshine - 엣지 디바이스용 고속·고정확도 음성 인식(ASR) 오픈소스

Favorite site

Wikipedia (en) Speech recognition

Speech recognition

Categories

Project

Favorite site