Whisper
OpenAI가 오픈소스로 공개한 다국어 음성 인식 시스템(ASR)
Features
- 영어 음성 인식에 대해서는 인간 수준의 정확도에 도달
- 68만 시간 분량의 다국어 데이터로 훈련
- 크고 다양한 데이터 셋을 통해 악센트, 배경 소음 및 기술 언어등에 대해서도 견고성(robustness)을 개선
Categories
- yt-whisper - 유튜브 영상을 OpenAI Whisper로 자막 생성 해주는 도구
- WhisperX - 타임스탬프 정확도를 개선한 Whisper 기반의 ASR
- transcribe-anything - OpenAI Whisper를 이용해서 자막만들기
- Whisper.cpp - OpenAI Whisper의 고성능 C/C++ 구현체
- Universal Speech Model - 모든 언어의 음성인식을 위한 모델 (Google)
- Cheetah - AI를 이용한 원격 인터뷰 도우미 오픈소스
- DeepSpeed Chat - RLHF를 이용한 ChatGPT-like 모델 훈련용 프레임워크
- Subs AI - OpenAI Whisper로 동영상의 자막 자동 생성하기
See also
Documentation
- Robust Speech Recognition via Large-Scale Weak Supervision
- https://cdn.openai.com/papers/whisper.pdf