OpticalCharacterRecognition:Example:JpgToPdf
JPEG파일로 구성된 문자를 OCR을 사용하여 PDF로 바꾸는 방법에 대한 설명.
How to
파일을 다음과 같이 한 폴더에 위치시킨다.
$ ls
001.jpg 060.jpg 119.jpg 178.jpg 237.jpg 296.jpg 355.jpg 414.jpg 473.jpg 532.jpg 591.jpg
002.jpg 061.jpg 120.jpg 179.jpg 238.jpg 297.jpg 356.jpg 415.jpg 474.jpg 533.jpg 592.jpg
003.jpg 062.jpg 121.jpg 180.jpg 239.jpg 298.jpg 357.jpg 416.jpg 475.jpg 534.jpg 593.jpg
004.jpg 063.jpg 122.jpg 181.jpg 240.jpg 299.jpg 358.jpg 417.jpg 476.jpg 535.jpg 594.jpg
...
동일한 폴더에 아래의 스크립트를 작성한다. 변환을 위해 ImageMagick를 사용한다.
#!/bin/bash
if [[ -z $1 || -z $2 ]]; then
echo "$0 {begin_index} {end_index}"
exit 1
fi
BEGIN_INDEX=$1
END_INDEX=$2
INDEX=0
FILE_LIST=
for cursor in *.jpg; do
if [[ $INDEX -ge $BEGIN_INDEX && $INDEX -le $END_INDEX ]]; then
FILE_LIST="$FILE_LIST $cursor"
fi
let "INDEX = INDEX + 1"
done
convert $FILE_LIST -resize 100% -quality 10 conv/$BEGIN_INDEX-$END_INDEX.pdf
총 이미지가 약 600여장 존재한다면 아래와 같이 실행하면 된다.
$ ./jpg2pdf.sh 0 50
$ ./jpg2pdf.sh 51 100
$ ./jpg2pdf.sh 101 150
$ ./jpg2pdf.sh 151 200
$ ./jpg2pdf.sh 201 250
$ ./jpg2pdf.sh 251 300
$ ./jpg2pdf.sh 301 350
$ ./jpg2pdf.sh 351 400
$ ./jpg2pdf.sh 401 450
$ ./jpg2pdf.sh 451 500
$ ./jpg2pdf.sh 501 550
$ ./jpg2pdf.sh 551 600
$ ./jpg2pdf.sh 601 650
50장 단위로 PDF를 만드는 이유는 Google OCR 서버스를 이용하기 위함이다. (PDF 및 사진 파일을 텍스트로 변환 - 컴퓨터 - Google 드라이브 고객센터 참조)
간단히 요약하면 아래와 같은 조건에 맞추면 된다.
- 형식: .JPEG, .PNG, .GIF, PDF(다중 페이지 문서) 파일을 변환할 수 있습니다.
- 파일 크기: 파일 크기는 2MB 이하여야 합니다.
- 해상도: 텍스트 높이는 10픽셀 이상이어야 합니다.
- 방향: 문서의 방향이 제대로 되어 있어야 합니다. 이미지가 잘못된 방향을 향하고 있으면 회전시킨 후 Google 드라이브에 업로드하세요.
- 언어 : Google 드라이브에서 문서에 사용된 언어를 감지합니다.
- 글꼴 및 문자 집합: Arial이나 Times New Roman 등의 일반 글꼴을 사용하면 더 좋은 결과를 얻을 수 있습니다.
- 이미지 품질 : 밝고 명암 대비가 분명하며 선명한 이미지일 때 가장 효과가 좋습니다.
마지막으로, 이미지 파일 변환은 아래와 같이 진행한다.
- 컴퓨터에서 drive.google.com 으로 이동합니다.
- 변환하려는 파일을 마우스 오른쪽 버튼으로 클릭합니다.
- 연결 프로그램 다음 Google 문서를 클릭합니다.
- 이미지 파일이 Google 문서로 변환되지만 일부 서식은 전송되지 않을 수 있습니다.
- 굵게, 기울임꼴, 글꼴 크기, 글꼴 유형, 줄바꿈은 대개 유지됩니다.
- 목록, 표, 열, 각주, 미주는 대개 유지되지 않습니다.