«   2019/02   »
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28    
Archives
Today
151
Total
1,199,054
안정적인 DNS서비스 DNSEver
관리 메뉴

Blue Breeze

library Tesseract - OCR test 본문

Language/Python

library Tesseract - OCR test

푸른바람 C/H 2019.01.25 18:03


이미지 처리 후 OCR 결과 얻기

from PIL import Image
import subprocess

def cleanFile(filePath, newFilePath):
	image = Image.open(filePath)

	# 회색 임계점 설정후 저장
	image = image.point(lambda x: 0 if x<143 else 255)
	image.save(newFilePath)

	# 테세렉트 읽기
	subprocess.call(["tesseract", newFilePath, "output"])

	# 텍스트 결과값 확인
	out = open("output.txt", "r")
	print(out.read())
	out.close()

cleanFile("test.tiff", "text_clean.tiff")
파이썬으로 웹 크롤러 만들기 한빛 미디어
11.2 형식이 일정한 텍스트 처리, 207p


'Language > Python' 카테고리의 다른 글

python proxy scraping  (0) 2019.01.29
library Tesseract - OCR test  (0) 2019.01.25
library Tesseract - OCR  (0) 2019.01.24
library Pillow - thumbnail create  (0) 2019.01.23
library requests - HTTPBasicAuth  (0) 2019.01.22
library requests - cookie, session, login  (0) 2019.01.21
0 Comments
댓글쓰기 폼