«   2019/04   »
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30        
Archives
Today
5
Total
1,207,440
안정적인 DNS서비스 DNSEver
관리 메뉴

Blue Breeze

library Tesseract - OCR test 본문

Language/Python

library Tesseract - OCR test

푸른바람 C/H 2019.01.25 18:03


이미지 처리 후 OCR 결과 얻기

from PIL import Image
import subprocess

def cleanFile(filePath, newFilePath):
	image = Image.open(filePath)

	# 회색 임계점 설정후 저장
	image = image.point(lambda x: 0 if x<143 else 255)
	image.save(newFilePath)

	# 테세렉트 읽기
	subprocess.call(["tesseract", newFilePath, "output"])

	# 텍스트 결과값 확인
	out = open("output.txt", "r")
	print(out.read())
	out.close()

cleanFile("test.tiff", "text_clean.tiff")
파이썬으로 웹 크롤러 만들기 한빛 미디어
11.2 형식이 일정한 텍스트 처리, 207p


'Language > Python' 카테고리의 다른 글

Udemy Download  (0) 2019.04.08
python proxy scraping  (0) 2019.01.29
library Tesseract - OCR test  (0) 2019.01.25
library Tesseract - OCR  (0) 2019.01.24
library Pillow - thumbnail create  (0) 2019.01.23
library requests - HTTPBasicAuth  (0) 2019.01.22
0 Comments
댓글쓰기 폼