Tesseract ist ein freies Texterkennungsprogramm. Es ist ein reines Zeichenerkennungsprogramm ohne Analyse von Seitengestaltung oder die Verwendung statistischer Sprachmodelle sowie ohne grafische Benutzeroberfläche, das jedoch auf Zeichenebene sehr gute Ergebnisse bietet.
Seit 2006 wird das Programm weiterentwickelt als Grundlage von Google Books.
tux@earth:~$ sudo apt-get install libpng12-dev libjpeg62-dev libtiff4-dev
tux@earth:~$ sudo tesseract-ocr tesseract-ocr-eng tesseract-ocr-deu tesseract-ocr-deu-f
tux@earth:~$ tesseract ./fox2.tif ./fox2 -l deu