lang/py

library Tesseract - OCR

C/H 2019. 1. 24. 08:30

테세렉트는 OCR 라이브러로 숫자 제한 없이 폰트를 인식할 수 있도록 훈련이 가능하며, 유니코드문자도 인식할 수 있다.

Install

# Install
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev

# edit sources.list
sudo vi /etc/apt/sources.list

Copy the first line "deb http://archive.ubuntu.com/ubuntu bionic main" and paste it as shown below on the next line.
If you are using a different release of ubuntu, then replace bionic with the respective release name.

deb http://archive.ubuntu.com/ubuntu bionic universe
brew install tesseract
Tesseract at UB Mannheim Windows

PATH

export TESSDAT_PREFIX=/usr/local/share/
setx TESSDATA_PRIFIX "C:\Program Files\tesseract OCR\"

Running Tesseract

테서랙트은 CLI 프로그램에서 다음과 같이 사용한다.

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

# myscan 읽고 결과를 out.txt 저장
tesseract myscan.png out

# lang 설정
tesseract myscan.png out -l deu
tesseract myscan.png out -l eng+deu

#Tesseract also includes a hOCR mode, which produces a special HTML file with the coordinates of each word. This can be used to create a searchable pdf, using a tool such as Hocr2PDF. To use it, use the 'hocr' config option, like this:
#Tesseract에는 각 단어의 좌표가 있는 특수 HTML 파일을 생성하는 hOCR 모드도 포함됩니다. 이것은 Hocr2PDF와 같은 도구를 사용하여 검색 가능한 pdf를 만드는 데 사용할 수 있습니다. 그것을 사용하려면 다음과 같은 'hocr'구성 옵션을 사용하십시오.
tesseract myscan.png out hocr

# 검색가능 PDF 저장
tesseract myscan.png out pdf
다른 언어 트레이닝은 Tessdata repository에서 확인.


Numpy

다른문자나 폰트인식을 위한 훈련을 위해서 필요.

pip install numpy
반응형

'lang > py' 카테고리의 다른 글

python proxy scraping  (0) 2019.01.29
library Tesseract - OCR test  (0) 2019.01.25
library Pillow - thumbnail create  (0) 2019.01.23
library requests - HTTPBasicAuth  (0) 2019.01.22
library requests - cookie, session, login  (0) 2019.01.21