Skip to content

OpticalCharacterRecognition:Example:JpgToPdf

JPEG파일로 구성된 문자를 OCR을 사용하여 PDF로 바꾸는 방법에 대한 설명.

How to

파일을 다음과 같이 한 폴더에 위치시킨다.

$ ls
001.jpg    060.jpg    119.jpg    178.jpg    237.jpg    296.jpg    355.jpg    414.jpg    473.jpg    532.jpg    591.jpg
002.jpg    061.jpg    120.jpg    179.jpg    238.jpg    297.jpg    356.jpg    415.jpg    474.jpg    533.jpg    592.jpg
003.jpg    062.jpg    121.jpg    180.jpg    239.jpg    298.jpg    357.jpg    416.jpg    475.jpg    534.jpg    593.jpg
004.jpg    063.jpg    122.jpg    181.jpg    240.jpg    299.jpg    358.jpg    417.jpg    476.jpg    535.jpg    594.jpg
...

동일한 폴더에 아래의 스크립트를 작성한다. 변환을 위해 ImageMagick를 사용한다.

#!/bin/bash

if [[ -z $1 || -z $2 ]]; then
    echo "$0 {begin_index} {end_index}"
    exit 1
fi

BEGIN_INDEX=$1
END_INDEX=$2

INDEX=0
FILE_LIST=

for cursor in *.jpg; do
    if [[ $INDEX -ge $BEGIN_INDEX && $INDEX -le $END_INDEX ]]; then
        FILE_LIST="$FILE_LIST $cursor"
    fi
    let "INDEX = INDEX + 1"
done

convert $FILE_LIST -resize 100% -quality 10 conv/$BEGIN_INDEX-$END_INDEX.pdf

총 이미지가 약 600여장 존재한다면 아래와 같이 실행하면 된다.

$ ./jpg2pdf.sh 0 50
$ ./jpg2pdf.sh 51 100
$ ./jpg2pdf.sh 101 150
$ ./jpg2pdf.sh 151 200
$ ./jpg2pdf.sh 201 250
$ ./jpg2pdf.sh 251 300
$ ./jpg2pdf.sh 301 350
$ ./jpg2pdf.sh 351 400
$ ./jpg2pdf.sh 401 450
$ ./jpg2pdf.sh 451 500
$ ./jpg2pdf.sh 501 550
$ ./jpg2pdf.sh 551 600
$ ./jpg2pdf.sh 601 650

50장 단위로 PDF를 만드는 이유는 Google OCR 서버스를 이용하기 위함이다. (PDF 및 사진 파일을 텍스트로 변환 - 컴퓨터 - Google 드라이브 고객센터 참조)

간단히 요약하면 아래와 같은 조건에 맞추면 된다.

  • 형식: .JPEG, .PNG, .GIF, PDF(다중 페이지 문서) 파일을 변환할 수 있습니다.
  • 파일 크기: 파일 크기는 2MB 이하여야 합니다.
  • 해상도: 텍스트 높이는 10픽셀 이상이어야 합니다.
  • 방향: 문서의 방향이 제대로 되어 있어야 합니다. 이미지가 잘못된 방향을 향하고 있으면 회전시킨 후 Google 드라이브에 업로드하세요.
  • 언어 : Google 드라이브에서 문서에 사용된 언어를 감지합니다.
  • 글꼴 및 문자 집합: Arial이나 Times New Roman 등의 일반 글꼴을 사용하면 더 좋은 결과를 얻을 수 있습니다.
  • 이미지 품질 : 밝고 명암 대비가 분명하며 선명한 이미지일 때 가장 효과가 좋습니다.

마지막으로, 이미지 파일 변환은 아래와 같이 진행한다.

  • 컴퓨터에서 drive.google.com 으로 이동합니다.
  • 변환하려는 파일을 마우스 오른쪽 버튼으로 클릭합니다.
  • 연결 프로그램 다음 Google 문서를 클릭합니다.
  • 이미지 파일이 Google 문서로 변환되지만 일부 서식은 전송되지 않을 수 있습니다.
    • 굵게, 기울임꼴, 글꼴 크기, 글꼴 유형, 줄바꿈은 대개 유지됩니다.
    • 목록, 표, 열, 각주, 미주는 대개 유지되지 않습니다.

See also