PythonでOCRがんばる(1) - JKになりたい

tesseractでOCR

これ（https://github.com/tesseract-ocr/tesseract）を入れる

Pythonで使いたいのでラッパーを入れる。

日本語に対応させるためにここ（https://github.com/tesseract-ocr/tessdata）からjapn.traineddataを/usr/local/tessdataに入れる。
パスを貼る。

export TESSDATA_PREFIX="/usr/local/share/tessdata/tessdata/

プログラムを書く。

from PIL import Image
import sys
import pyocr
import pyocr.builders
tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("No OCR tool found")
    sys.exit(1)
# The tools are returned in the recommended order of usage
tool = tools[0] txt = tool.image_to_string(
    Image.open('./img_file_path.png'),
    lang="jpn+eng",
    builder=pyocr.builders.TextBuilder(tesseract_layout=6)
    )
print(txt)

結果

f:id:deeptoneworks:20160916040224p:plain
pct Hmschold Ind Ana ol'Floor Splec pct PM by Typc oanilding (7 Groups) Ind Timur: of Dwelling (~ Groups) . All Shi. All Gun Ind

お？まあまあええ感じやん！近いで！

f:id:deeptoneworks:20160916040251p:plain
leh: 22. Privalr. Households Illd Household Mclnbas Living in Dwelling Ind Avcng: Number of Household Mcmbcls Ind Ale- :1me Spin: