Skip to content

Optical character recognition

광학 문자 인식(Optical character recognition; OCR)은 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것이다.

이미지 스캔으로 얻을 수 있는 문서의 활자 영상을 컴퓨터가 편집 가능한 문자코드 등의 형식으로 변환하는 소프트웨어로써 일반적으로 OCR이라고 하며, OCR은 인공지능이나 기계 시각(machine vision)의 연구분야로 시작되었다.

거울이나 렌즈 등의 광학 기술을 이용한 광학 문자 인식과 스캐너 및 알고리즘에 의한 디지털 문자 인식은 다른 영역으로 생각되었으나 이제는 광학 문자 인식이라는 말이 디지털 문자 인식을 포함하는 것으로 간주되었다.

초기 시스템은 특정한 서체를 읽기 위해 미리 해당 서체의 샘플을 읽는 것을 뜻하는 "트레이닝"이 필요했지만, 지금은 대부분의 서체를 높은 확률로 변환이 가능하다. 몇몇 시스템에서는 읽어들인 이미지에서 그것과 거의 일치하는 워드 프로세서 파일과 같은 문서 포맷으로 된 출력 파일을 생성할 수 있으며, 그 중에는 이미지처럼 문서 이외의 부분이 포함되어있어도 제대로 인식하는 것도 있다.

Categories

Basic pipeline

Ocropus-pipeline.png

Deep learning based

Projects

클라우드 서비스

  • Google Cloud Vision
  • AWS Textract
  • Azure Document Intelligence (Form Recognizer)
  • Naver Clova
  • Upstage
  • Mistral OCR

OCR 서비스 비교평가 테이블

비교 타입

Tesseract

EasyOCR

Google Vision

AWS Textract

Azure Document Intelligence

Naver Clova

Upstage

PaddleOCR

Open Source

O

O

X

X

X

X

X

O

한글 인식

중상

최하(지원X)

중상

중(추가 테스트 필요)

영문 인식

표+글자 인식

1

상(Only Eng)

중상

속도

최하

최상

중상

중하

특화 모델2 제공

X

X

O

O

O (영수증, 명함, 보험/세금 서류, 신분증 등)

O(영수증, 명함, 사업자등록증 등)

O(영수증)

X

Model Customization3

O

O

X

X

O

O

X

O

요금(1건)4

무료

무료

$1.5 (매월 1000건까지 무료)

-

$0.01 (종량제: 매월 500페이지 무료)

3원 (매월 300건 무료)

3원

무료

API 사용 난이도

중상

고객 지원

X

X

X

O

O

O

O

X

confidence score 제공

O

O

O

O

O

O (문서별,단어별 각각 제공)

O

총평

  • 전통있는 대표적 OCR
  • 유료 서비스에 비해서는 전처리 해야하는 단점이 있으나 기본 사양한 충실히 해줌
  • 쉽고 직관적인 사용법이 장점이나 한글 인식률이 매우 떨어져 활용하기 힘들어보임
  • 속도 매우 느림
  • 압도적인 속도.
  • 초기 세팅이 상대적으로 번거로움.
  • 음영/그림자 등 이미지 퀄리티에 따른 인식률 차이가 있으나, 한글 및 영어 모두 괜찮은 성능을 보임
  • 영문 데이터에 최고
  • 자유도가 없으나 pre-built model 을 통해 웬만한 영문 서류 처리 가능
  • 영역별 개체 인식 및 confidence score를 통해 추가 검증 가능
  • 기존 Azure Vision 서비스 보다 고도화된 서비스
  • 다양한 특화모델 제공하여 용도별 추가 테스트 필요
  • 최근 출시된 V4.0부터는 네이버 Clova와 마찬가지로 "Model Customization" 가능
  • 한글 인식률 괜찮은 편
  • 현재 가장 무난하고 우수한 한글 OCR 서비스
  • 다양한 특화 모델 제공하며, 특화 모델과 맞지 않는 경우 “템플릿 생성”을 통해 반복되는 양식을 train my own data 할 수 있다는 장점
  • Documentation은 부실하고, UI/UX 또한 user-friendly 하지 않음
  • 관련 reference 없는편이나, 표+글자 인식률이 휴리스틱하게 판단할 때, 가장 뛰어나 보임
  • 다양한 모델 제공
  • EasyOCR 대비 속도&성능 측면에서 우월하나, Tesseract는 테스트 이미지에 따라 상이
  • 버전 컨트롤 필요 (Python 3.10 이하만 호환 -> downgrade 필요)

PDF에서 데이터 추출이 여전히 어려운 이유

OCR(광학 문자 인식)의 한계

  • PDF 파일은 과학 연구, 정부 기록 등 중요한 데이터를 담고 있으나, 포맷이 고정적이라 기계가 읽고 분석하기 어려움
  • PDF는 인쇄 레이아웃에 맞춰 제작된 형식이기 때문에 디지털 분석에 적합하지 않음
  • 많은 PDF는 정보의 이미지를 포함하므로, 이를 데이터로 변환하기 위해 OCR 소프트웨어가 필요함
  • 오래된 문서나 필기된 문서의 경우 OCR 성능이 더욱 떨어짐

비정형 데이터 문제

  • 전 세계 조직 데이터의 약 80~90%가 비정형 데이터로 저장되어 있으며, PDF에 포함된 경우가 많음
  • 두 개의 칼럼 레이아웃, 표, 차트, 이미지 품질이 낮은 스캔본에서 데이터 추출이 특히 어려움
  • 특히 과학 연구, 역사 문서 보존, 고객 서비스, AI 시스템에서 기술 문헌 접근성 확보에 큰 문제 발생

분야별 영향

  • 정부 기록, 법원, 경찰, 사회 서비스 등 공공 기관 운영에 영향
  • 보험 및 은행 같은 정보 의존 산업에서는 PDF 데이터를 변환하기 위해 시간과 자원 소모

OCR 기술의 역사

  • 1970년대에 레이 커즈와일(Ray Kurzweil)이 패턴 매칭 알고리즘 기반의 상업용 OCR 시스템 개발
  • 커즈와일 리딩 머신(Kurzweil Reading Machine)은 시각 장애인을 위해 문자 인식 기능 제공
  • 전통적인 OCR 시스템은 명암 패턴을 인식해 문자로 변환하는 방식
  • 복잡한 글꼴, 다중 열 레이아웃, 표 등에서는 성능 저하 발생
  • 전통적인 OCR은 오류가 예측 가능해 수정이 용이하지만 한계 존재

AI 기반 OCR의 부상

  • 다중모달(멀티모달) LLM(대규모 언어 모델)은 이미지와 텍스트를 통합해 데이터 추출 수행
  • OpenAI, Google, Meta 등의 모델은 문서의 시각적 요소와 텍스트 맥락을 동시에 인식 가능
  • 전통 OCR은 문자 단위 패턴 매칭 방식이지만, AI는 문서 레이아웃과 맥락을 인식해 처리
  • Amazon의 Textract는 전통 OCR 방식이지만, LLM은 더 넓은 맥락에서 문서를 분석 가능
  • 복잡한 레이아웃, 표, 캡션 등을 더 잘 처리함

새로운 LLM 기반 OCR 시도

  • 프랑스 AI 회사 Mistral은 LLM 기반 문서 처리 API인 Mistral OCR 출시
  • 복잡한 레이아웃의 문서에서 텍스트 및 이미지 추출을 목표로 함
  • 성능 문제 발생: 오래된 문서의 표 처리 실패 및 숫자 오류 발생
  • 필기체 인식에서 문제 발생 → AI가 임의의 내용을 생성(환각 현상)
  • Google의 Gemini 2.0이 현재 가장 우수한 성능 제공 → 복잡한 문서에서도 오류 적음

LLM 기반 OCR의 문제점

  • LLM은 확률 기반 모델이기 때문에 오류 발생 가능성 높음
  • 문서 레이아웃이 반복될 때 줄이 누락되는 현상 발생
  • LLM이 사용자 프롬프트와 문서 내용 구분에 실패해 잘못된 해석 가능
  • 표에서 잘못된 값 매칭 시 치명적 오류 발생 → 금융, 법률, 의료 분야에 큰 문제 초래
  • 임의의 텍스트 생성 문제 → 인간의 검토 필요

앞으로의 과제

  • 완벽한 OCR 솔루션은 아직 존재하지 않음
  • Google, OpenAI 등은 문맥 인식 AI 제품을 통해 성능 개선 중
  • AI 회사들은 PDF에서 데이터 추출을 통해 AI 학습 데이터 확보 기대
  • AI가 PDF 데이터를 완벽히 처리하게 되면, 데이터 분석의 새로운 시대 열릴 가능성

See also

Favorite site

Guide

Article

References


  1. 유료 Enterprise 용 별도 존재 

  2. 영수증, 사업자등록증 등 특정 문서를 학습한 OCR 모델로 보통 해당 양식의 이미지 정보가 미리 정의된 JSON 구조에 맞추어 리턴됨 

  3. Fine-Tune 이라고 보면 된다. “Train with My Own Data” 를 통해 모델을 미세조정할 수 있도록 기능 제공 

  4. 1건, 일반 OCR, Base Plan 기준이며, 건수/목적에 따라 매우 상이(많은 서비스에서 특정 건까지는 무료로 제공하기도 함) 

  5. Building_Custom_Deep_Learning_Based_OCR_models.pdf