Für Leute die vor dem gleichen Problem stehen:
Bablus Sprachdateien sind für Tesseract in der Version 2, für die Ende letzten Jahres erschienene Version 3 sind diese Daten nicht nutzbar.
Prinzipiell ist die Nutzung von Version 2 kein Problem, allerdings werden die von unserem Faxgerät empfangenen Faxe übers Netzwerk auf den Funkraum-Computer als tif in Fax-Gruppe-4-Kompression gespeichert. Dumm nur, dass dies nur von Tesseract in Version 3 gelesen werden kann, mit dem ja aber wieder die Sprachdateien von Bablu nicht funktionieren.
Die Tesseract-Internetseite gibt als Lösungsmöglichkeiten entweder ein Compilieren aus dem Quelltext mit einer zusätzlichen Grafik-Bibliothek oder aber die Umwandlung mit einem Grafikbearbeitungsprogramm in unkomprimiertes tif an. Ersteres fällt für mich aus weil ich keinen C++-Compiler habe und diese meiner Recherche nach nicht gratis erhältlich sind. Für den anderen Lösungsansatz kam mir direkt ImageMagick in den Sinn. In einem anderem Forum habe ich dann das entsprechende Kommando zum Aufrufen mit Imagemagick gefunden was die Kompression entfernen soll, nur leider gab Tesseract dann nur noch Datenmüll aus (auch wenn das Fax von Menschen noch einwandfrei lesbar war).
Durch Zufall habe ich dann herausgefunden, dass die ganze Geschichte doch mit ImageMagick funktioniert wenn man die Ausgangsdatei in ein tif mit FAX-Kompression (was auch immer das genau sein soll, denn eigentlich gibt es da ja mehrere Standards...) umwandelt. Eigentlich dachte ich ja, dass Tesseract 2 nicht mit komprimierten Dateien umgehen kann, aber anscheinend funktioniert das doch.
Der Syntax für das Umwandeln der Datei lautet (für Linux ebenso wie Windows):
convert *ursprünglicher Dateiname* -compress fax *neuer Dateiname*
wobei man auch beides Mal den gleichen Dateinamen angeben kann, dann wird die Ausgangsdatei halt überschrieben.
Vielleicht hilft es ja jemandem.
Grüße, Christoph