Skip to content

Whisper

OpenAI가 오픈소스로 공개한 다국어 음성 인식 시스템(ASR)

Features

영어 음성 인식에 대해서는 인간 수준의 정확도에 도달
68만 시간 분량의 다국어 데이터로 훈련
크고 다양한 데이터 셋을 통해 악센트, 배경 소음 및 기술 언어등에 대해서도 견고성(robustness)을 개선

Categories

yt-whisper - 유튜브 영상을 OpenAI Whisper로 자막 생성 해주는 도구
WhisperX - 타임스탬프 정확도를 개선한 Whisper 기반의 ASR
transcribe-anything - OpenAI Whisper를 이용해서 자막만들기
Whisper.cpp - OpenAI Whisper의 고성능 C/C++ 구현체
Universal Speech Model - 모든 언어의 음성인식을 위한 모델 (Google)
Cheetah - AI를 이용한 원격 인터뷰 도우미 오픈소스
DeepSpeed Chat - RLHF를 이용한 ChatGPT-like 모델 훈련용 프레임워크
Subs AI - OpenAI Whisper로 동영상의 자막 자동 생성하기
Whispering - 오픈소스 음성 전사 앱

See also

Documentation

Robust Speech Recognition via Large-Scale Weak Supervision: https://cdn.openai.com/papers/whisper.pdf

Favorite site