OCR Texterkennung mit Tesseract

Google hat das sehr interessantes Open Source Projekt Tesseract übernommen, mit dem man relativ einfach Text von Bildern extrahieren kann.

Tesseract ist lauffähig unter verschiedensten Betriebssystemen und es gibt für das alle Programmiersprachen Wrapper zum Ausführen der Software.

Die Installation von Tesseract unter Linux

Die Installation in z.B. Debain und Ubuntu gestalltet sich mit Hilfe des Packetmanagers sehr einfach und komfortabel (im Beispiel für die deutsche Sprache):

sudo apt-get install tesseract-ocr tesseract-ocr-deu

Aber auch bspw. unter Windows und Mac gibt es ein Installationsprogramm.

Für die Verarbeitung mit PHP kann man eine der zahlreichen Wrapper benutzen, bspw

tesseract-ocr-for-php

Imagick für PHP

Für die Bearbeitung der Bilder mit PHP vor der Analyse empfehle ich Imagick für PHP. Die Installation geht schnell von der Hand mit:

apt-get install php5-imagick

Details zu Bildbearbeitung im Imagick gibt es in der Dokumentation.

Die Konfiguration von Tesseract

Ist das schwierigste und zeitaufwendigste, den besten Überblick gibt es hier.