Optical character recognition

광학 문자 인식(Optical character recognition; OCR)은 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것이다.

이미지 스캔으로 얻을 수 있는 문서의 활자 영상을 컴퓨터가 편집 가능한 문자코드 등의 형식으로 변환하는 소프트웨어로써 일반적으로 OCR이라고 하며, OCR은 인공지능이나 기계 시각(machine vision)의 연구분야로 시작되었다.

거울이나 렌즈 등의 광학 기술을 이용한 광학 문자 인식과 스캐너 및 알고리즘에 의한 디지털 문자 인식은 다른 영역으로 생각되었으나 이제는 광학 문자 인식이라는 말이 디지털 문자 인식을 포함하는 것으로 간주되었다.

초기 시스템은 특정한 서체를 읽기 위해 미리 해당 서체의 샘플을 읽는 것을 뜻하는 "트레이닝"이 필요했지만, 지금은 대부분의 서체를 높은 확률로 변환이 가능하다. 몇몇 시스템에서는 읽어들인 이미지에서 그것과 거의 일치하는 워드 프로세서 파일과 같은 문서 포맷으로 된 출력 파일을 생성할 수 있으며, 그 중에는 이미지처럼 문서 이외의 부분이 포함되어있어도 제대로 인식하는 것도 있다.

Basic pipeline

Extracting text from an image using Ocropus

Ocropus-pipeline.png

Deep learning based

Character-Region Awareness For Text detection (CRAFT)
Github - deep-text-recognition-benchmark - Clova AI (Naver)
Github - Convolutional Recurrent Neural Networks(CRNN) for Scene Text Recognition
Attention OCR (Attention-based Extraction of Structured Information from Street View Imagery)
SEE: Towards Semi-SupervisedEnd-to-End Scene Text Recognition
STREET: End-to-End Interpretation of the French Street Name Signs Dataset
Nanonets-OCR-s – 문서를 구조화된 마크다운으로 변환하는 OCR 모델
DeepSeek OCR

Projects

Tesseract
OpenALPR - 자동차 번호판.
PyOCR
EasyOCR - 다국어 OCR 엔진으로, 70여 개 이상의 언어를 지원합니다. PyTorch로 개발되어 있으며, 간단한 API를 제공합니다.
Calamari
OCRopus (OCRopy; ocropus3) - OCR과 관련된 일련의 도구들로 이루어진 프레임워크입니다. Tesseract OCR과 함께 사용되기도 합니다.
Kraken - OCR 모델을 훈련하는 데 사용되는 파이썬 프레임워크입니다. 기존 모델을 불러오거나, 새로운 모델을 훈련할 수 있습니다.
SwiftOCR
macOCR - Get any text on your screen into your clipboard.
PaddleOCR (바이두에서 개발한 오픈소스)
Github - KoOCR-tensorflow - Korean OCR based on tensorflow deep-learning.
Github - deep-text-recognition-benchmark - Text recognition (optical character recognition) with deep learning methods.
Github - TextBoxes++: A Single-Shot Oriented Scene Text Detector
Github - Total-Text-Dataset (Official site) - Total Text Dataset. It consists of 1555 images with more than 3 different text orientations: Horizontal, Multi-Oriented, and Curved, one of a kind.
Github - MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition - MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition
Github - SEE: Towards Semi-Supervised End-to-End Scene Text Recognition - Code for the AAAI 2018 publication "SEE: Towards Semi-Supervised End-to-End Scene Text Recognition"
Github - PyTorch implementation of FOTS - FOTS Pytorch Implementation
Github - vedastr is an open source scene text recognition toolbox based on PyTorch - A scene text recognition toolbox based on PyTorch
Github - MASTER-PyTorch - Code for the paper "MASTER: Multi-Aspect Non-local Network for Scene Text Recognition" (Pattern Recognition 2021)
Github - SynthTIGER: Synthetic Text Image Generator - Official implementation of SynthTIGER (Synthetic Text Image GEneratoR) ICDAR 2021 (clovaai)
Github - Scene text recognition - Scene text detection and recognition based on Extremal Region(ER)
- A real-time scene text recognition algorithm. Our system is able to recognize text in unconstrain background. This algorithm is based on several papers, and was implemented in C/C++.
Github - MASTER-TensorFlow - TensorFlow reimplementation of "MASTER: Multi-Aspect Non-local Network for Scene Text Recognition" (Pattern Recognition 2021).
Github - CRNN.tf2 - Convolutional Recurrent Neural Network(CRNN) for End-to-End Text Recognition - TensorFlow 2
Github - Code for the paper KISS: Keeping it Simple for Scene Text Recognition - Code for the paper "KISS: Keeping it Simple for Scene Text Recognition"
Github - mtl-text-recognition - multi-task learning for text recognition with joint CTC-attention (중국어)
Github - STR-Fewer-Labels - Scene Text Recognition (STR) methods trained with fewer real labels.
Github - Data Augmentation for Scene Text Recognition - Image transformations designed for Scene Text Recognition (STR) data augmentation. Published at ICCV 2021 Workshop on Interactive Labeling and Data Augmentation for Vision.
Github - Real-time-Scene-Text-Detection-and-Recognition-System - End-to-end pipeline for real-time scene text detection and recognition.
Rowfill - 복잡한 문서, 이미지, PDF 등에서 데이터를 추출하고 분석하는 데 필요한 고급 AI 기능을 제공합니다.
OCR4all - 모두를 위한 OCR
OlmOCR - PDF에서 텍스트를 추출하는 오픈 소스 도구
LightOnOCR2

클라우드 서비스

Google Cloud Vision
AWS Textract
Azure Document Intelligence (Form Recognizer)
Naver Clova
Upstage
Mistral OCR

OCR 서비스 비교평가 테이블

[추천] (OCR/AI) OCR 성능 평가: 8가지 파이썬 API 비교평가 테스트 (23년도 최신버전) | 오순도순 블로그

비교 타입	Tesseract	EasyOCR	Google Vision	AWS Textract	Azure Document Intelligence	Naver Clova	Upstage	PaddleOCR
Open Source	O	O	X	X	X	X	X	O
한글 인식	중	하	중상	최하(지원X)	중상	상	상	중(추가 테스트 필요)
영문 인식	상	하	상	상	상	상	상	상
표+글자 인식	하	하¹	상	상(Only Eng)	상	중상	상	중
속도	중	최하	최상		중상	중하	중	하
특화 모델² 제공	X	X	O	O	O (영수증, 명함, 보험/세금 서류, 신분증 등)	O(영수증, 명함, 사업자등록증 등)	O(영수증)	X
Model Customization³	O	O	X	X	O	O	X	O
요금(1건)⁴	무료	무료	$1.5 (매월 1000건까지 무료)	-	$0.01 (종량제: 매월 500페이지 무료)	3원 (매월 300건 무료)	3원	무료
API 사용 난이도	하	하	중상	중	하	하	하	중
고객 지원	X	X	X	O	O	O	O	X
confidence score 제공	O	O	△	O	O	O	O (문서별,단어별 각각 제공)	O
총평	전통있는 대표적 OCR 유료 서비스에 비해서는 전처리 해야하는 단점이 있으나 기본 사양한 충실히 해줌	쉽고 직관적인 사용법이 장점이나 한글 인식률이 매우 떨어져 활용하기 힘들어보임 속도 매우 느림	압도적인 속도. 초기 세팅이 상대적으로 번거로움. 음영/그림자 등 이미지 퀄리티에 따른 인식률 차이가 있으나, 한글 및 영어 모두 괜찮은 성능을 보임	영문 데이터에 최고 자유도가 없으나 pre-built model 을 통해 웬만한 영문 서류 처리 가능 영역별 개체 인식 및 confidence score를 통해 추가 검증 가능	기존 Azure Vision 서비스 보다 고도화된 서비스 다양한 특화모델 제공하여 용도별 추가 테스트 필요 최근 출시된 V4.0부터는 네이버 Clova와 마찬가지로 "Model Customization" 가능 한글 인식률 괜찮은 편	현재 가장 무난하고 우수한 한글 OCR 서비스 다양한 특화 모델 제공하며, 특화 모델과 맞지 않는 경우 “템플릿 생성”을 통해 반복되는 양식을 train my own data 할 수 있다는 장점	Documentation은 부실하고, UI/UX 또한 user-friendly 하지 않음 관련 reference 없는편이나, 표+글자 인식률이 휴리스틱하게 판단할 때, 가장 뛰어나 보임	다양한 모델 제공 EasyOCR 대비 속도&성능 측면에서 우월하나, Tesseract는 테스트 이미지에 따라 상이 버전 컨트롤 필요 (Python 3.10 이하만 호환 -> downgrade 필요)

PDF에서 데이터 추출이 여전히 어려운 이유

PDF에서 데이터 추출이 여전히 어려운 이유 | GeekNews
- [원문] Why extracting data from PDFs is still a nightmare for data experts - Ars Technica

OCR(광학 문자 인식)의 한계

PDF 파일은 과학 연구, 정부 기록 등 중요한 데이터를 담고 있으나, 포맷이 고정적이라 기계가 읽고 분석하기 어려움
PDF는 인쇄 레이아웃에 맞춰 제작된 형식이기 때문에 디지털 분석에 적합하지 않음
많은 PDF는 정보의 이미지를 포함하므로, 이를 데이터로 변환하기 위해 OCR 소프트웨어가 필요함
오래된 문서나 필기된 문서의 경우 OCR 성능이 더욱 떨어짐

비정형 데이터 문제

전 세계 조직 데이터의 약 80~90%가 비정형 데이터로 저장되어 있으며, PDF에 포함된 경우가 많음
두 개의 칼럼 레이아웃, 표, 차트, 이미지 품질이 낮은 스캔본에서 데이터 추출이 특히 어려움
특히 과학 연구, 역사 문서 보존, 고객 서비스, AI 시스템에서 기술 문헌 접근성 확보에 큰 문제 발생

분야별 영향

정부 기록, 법원, 경찰, 사회 서비스 등 공공 기관 운영에 영향
보험 및 은행 같은 정보 의존 산업에서는 PDF 데이터를 변환하기 위해 시간과 자원 소모

OCR 기술의 역사

1970년대에 레이 커즈와일(Ray Kurzweil)이 패턴 매칭 알고리즘 기반의 상업용 OCR 시스템 개발
커즈와일 리딩 머신(Kurzweil Reading Machine)은 시각 장애인을 위해 문자 인식 기능 제공
전통적인 OCR 시스템은 명암 패턴을 인식해 문자로 변환하는 방식
복잡한 글꼴, 다중 열 레이아웃, 표 등에서는 성능 저하 발생
전통적인 OCR은 오류가 예측 가능해 수정이 용이하지만 한계 존재

AI 기반 OCR의 부상

다중모달(멀티모달) LLM(대규모 언어 모델)은 이미지와 텍스트를 통합해 데이터 추출 수행
OpenAI, Google, Meta 등의 모델은 문서의 시각적 요소와 텍스트 맥락을 동시에 인식 가능
전통 OCR은 문자 단위 패턴 매칭 방식이지만, AI는 문서 레이아웃과 맥락을 인식해 처리
Amazon의 Textract는 전통 OCR 방식이지만, LLM은 더 넓은 맥락에서 문서를 분석 가능
복잡한 레이아웃, 표, 캡션 등을 더 잘 처리함

새로운 LLM 기반 OCR 시도

프랑스 AI 회사 Mistral은 LLM 기반 문서 처리 API인 Mistral OCR 출시
복잡한 레이아웃의 문서에서 텍스트 및 이미지 추출을 목표로 함
성능 문제 발생: 오래된 문서의 표 처리 실패 및 숫자 오류 발생
필기체 인식에서 문제 발생 → AI가 임의의 내용을 생성(환각 현상)
Google의 Gemini 2.0이 현재 가장 우수한 성능 제공 → 복잡한 문서에서도 오류 적음

LLM 기반 OCR의 문제점

LLM은 확률 기반 모델이기 때문에 오류 발생 가능성 높음
문서 레이아웃이 반복될 때 줄이 누락되는 현상 발생
LLM이 사용자 프롬프트와 문서 내용 구분에 실패해 잘못된 해석 가능
표에서 잘못된 값 매칭 시 치명적 오류 발생 → 금융, 법률, 의료 분야에 큰 문제 초래
임의의 텍스트 생성 문제 → 인간의 검토 필요

앞으로의 과제

완벽한 OCR 솔루션은 아직 존재하지 않음
Google, OpenAI 등은 문맥 인식 AI 제품을 통해 성능 개선 중
AI 회사들은 PDF에서 데이터 추출을 통해 AI 학습 데이터 확보 기대
AI가 PDF 데이터를 완벽히 처리하게 되면, 데이터 분석의 새로운 시대 열릴 가능성

Favorite site

Guide

Article

Our Search for the Best OCR Tool, and What We Found

References

유료 Enterprise 용 별도 존재 ↩
영수증, 사업자등록증 등 특정 문서를 학습한 OCR 모델로 보통 해당 양식의 이미지 정보가 미리 정의된 JSON 구조에 맞추어 리턴됨 ↩
Fine-Tune 이라고 보면 된다. “Train with My Own Data” 를 통해 모델을 미세조정할 수 있도록 기능 제공 ↩
1건, 일반 OCR, Base Plan 기준이며, 건수/목적에 따라 매우 상이(많은 서비스에서 특정 건까지는 무료로 제공하기도 함) ↩
Building_Custom_Deep_Learning_Based_OCR_models.pdf ↩