Jepp, damit gehts nicht.
Richtig funktioniert es nur mit Win 7 32bit.
Druckbare Version
OK und es gibt keine alternative ?
Zu dem Auswerteprogramm?
Ich kenne keins.
Schade dan werd ich meine Arbeit einstellen müssen....
Danke
Ich habe mal eine Frage an alle Tesseract-Nutzer:
Ich habe, inspiriert von diesem Thread, auch eine Alarmauswertung geschrieben. Da wir ein paar andere Funktionen brauchen bzw. diese anders realisieren müssen fällt das fertige Programm hier leider aus. Programmiert habe ich in einer Kombination aus Batch, PHP und MySQL. Um das Programm der Allgemeinheit zur Verfügung zu stellen ist es aber vermutlich zu sehr auf meine Feuerwehr bzw. vor allem auch auf unser Leitstellenfax angepasst, das wäre vermutlich schneller neu geschrieben als für eine allgemeine Nutzung angepasst.
Auch bei meiner Lösung wird das Alarmfax, das von unserem Faxgerät direkt als tif auf dem Rechner abgespeichert wird und damit eine sehr gute Qualität hat, von Tesseract ausgelesen um die Daten danach weiter zu verarbeiten. Die Schriftart ist (schätze ich mal) Courier, also so eine Schreibmaschinenschrift.
Normale Wörter werden sehr gut erkannt, Umlaute und das scharfe s fast gar nicht. Das ist kein allzu großes Problem und lässt sich noch ganz gut verschmerzen bzw. auch größtenteils durch Buchstabenersetzungen abfangen.
Ein wirkliches Problem sind aber Fehlerkennungen von Ziffern, hier ist vor allem auffällig das eine 6 mal als 8 oder auch mal als B erkannt wird oder jeweils umgekehrt. Während sich das bei der PLZ auch noch ganz gut abfangen lässt, wird dies bei der Hausnummer echt schwierig und hält mich bis jetzt noch etwas davon ab das ganze Teil im Produktivbetrieb zu verwenden. Anstatt die Hausnummer 62 als Ziel zu haben fährt man sonst zur 82 oder zur B2 (ok, das wäre allerdings etwas weit weg... :-) ). Ansonsten werden Einser auch mal gerne als kleines L erkannt (oder auch hier wieder umgekehrt).
Dies schließt außerdem leider die Nutzung der auf dem Fax angegebenen Gauß-Krüger-Koordinaten aus, welche vermutlich präziser wären als der von Google Maps zur Adresse ausgespuckte Marker.
Nun die eigentliche Frage:
Hat jemand bei euch ähnliche Probleme bzw. diese vielleicht sogar gelöst?
Es gibt ja die Möglichkeit, Tesseract neue Schriften beizubringen. Allerdings soll da zwischen allen Zeichen jeweils immer ein Leerzeichen sein, und dafür eignet sich natürlich kein normales Alarmfax und selbst erzeugen fällt dabei aus nachvollziehbaren Gründen auch aus (oder ich müsste bei der Leitstelle vorstellig werden und fragen welche Schriftart verwendet wird).
Ich kann mir nicht vorstellen, dass nicht irgendjemand schon das Problem gelöst hat eine Schreibmaschinenschrift korrekt zu erkennen, gerade weil ja sowas genau eine Anwendung für den Bereich Texterkennung wäre.
Leider ist Tesseract sehr schlecht dokumentiert und auch in Foren etc. nicht sehr stark behandelt; ich hatte gehofft vielleicht über so ein configfile (was als Parameter hinter der zu verwendenden Sprache angegeben wird) die Schriftart anzugeben, aber daraus wird anscheinend auch nichts.
Grüße und danke für die Hilfe,
Christoph
Hi Allmächtiger,
Wir haben auch in unserem Alarmfax eine Schriftart die zwar Courier ähnlich sieht aber nicht Hundertprozentig identisch ist.
Ich hab aus den gesammelten Alarmfaxen tesseract die neue Schriftart beigebracht. Hat zwar 2 Wochen gedauer bis ich mich in tesseact eingearbeitet hatte, aber jetzt funktioniert undere Auswertung ohne Fehler.
Die Alarmfaxe eignen sich ohne Probleme zum lernen der Schriftart...
Ich hab mich mit dieser Anleitung durchgekämpft: http://wiki.ubuntuusers.de/tesseract...ocr_trainieren und als Hilfsprogramm BBtesseract genutzt.
Du bist nicht zufällig aus dem ILS-Bereich Straubing?
Gruß
Bablu
Hallo Bablu,
vielen Dank für deine Antwort. Wenn du es geschafft hast die neue Schriftart nur über Alarmfaxe zu trainieren dann sollte das wohl auch bei mir möglich sein wenn ich genug Faxe gesammelt habe.
Ich komme nicht aus deinem Leitstellenbereich, für uns ist die ILS Kaiserslautern zuständig. Soweit ich weiß verwenden die als Leitstellensoftware Cobra, vielleicht sind unsere Faxe ja trotzdem nahezu identisch? Ich habe mal ein etwas anonymisiertes Fax angehängt (in einer Zip-Datei, tif ist hier nicht erlaubt).
Grüße, Christoph
Hi,
ja unsere Schriftart sieht identisch aus.
Wenn du willst kann ich dir den trainierten Datensatz morgen zukommen lassen. Muß den aktuellen erst vom Alarmrechner kopieren.
Mir Fehlen allerdings noch das große Ä, Ü und Q und ein paar Sonderzeichen, die jedoch kaum jemals in einem Alarmfax vorkommen dürften.
Gruß
Bablu
Vielen Dank, das wäre klasse. Ich melde mich per PN.
Wenn da nichts "VS" drinsteht, könntest du das ja auch hier allen zur Verfügung stellen, deren ILS mit COBRA arbeitet ;)
MfG Fabsi
*interesse*
ich melde auch Interesse an. Bei uns wird auch das Cobra-System genutzt.
Hi Leute,
wenn so großes Interesse besteht, dann mach ich das doch gern ;-)
Hab ich schonmal versucht, die Antwort der ILS war darauf, sie könnten ein Alarmfax nur mit vorheriger Alarmierung verschicken. Wir hatten schon bei einem Kleinkram-Einsatz ein Fax angefordert (weils in ner Straße mit nem benötigten Buchstaben war :-)), das erhaltene Fax war jedoch vom Aufbau völlig unterschiedlich und als Schriftart wurde Arial verwendet.
Somit bleibt mir wohl nur übrig zu warten bis ich alle Buchstaben zusammen hab :-(
Also hier der Datensatz. Folgende Zeichen fehlen: Q Y Ä Ü " § $ % & ? @ * # < [ ] { } \ ° ~ ´ `
Viel Spaß damit :-)
Gruß
Bablu
Edit: Wenn jemand vielleicht ein Alarmfax mit einem der Fehlenden Zeichen hat, und wenn von eurer Seite aus keine datenschutzrechtlichen Bedenken bestehen (das Fax wird natürlich vertraulich behandelt) könnt ihr es mir gerne zusenden um den Datensatz zu vervollständigen.
Für Leute die vor dem gleichen Problem stehen:
Bablus Sprachdateien sind für Tesseract in der Version 2, für die Ende letzten Jahres erschienene Version 3 sind diese Daten nicht nutzbar.
Prinzipiell ist die Nutzung von Version 2 kein Problem, allerdings werden die von unserem Faxgerät empfangenen Faxe übers Netzwerk auf den Funkraum-Computer als tif in Fax-Gruppe-4-Kompression gespeichert. Dumm nur, dass dies nur von Tesseract in Version 3 gelesen werden kann, mit dem ja aber wieder die Sprachdateien von Bablu nicht funktionieren.
Die Tesseract-Internetseite gibt als Lösungsmöglichkeiten entweder ein Compilieren aus dem Quelltext mit einer zusätzlichen Grafik-Bibliothek oder aber die Umwandlung mit einem Grafikbearbeitungsprogramm in unkomprimiertes tif an. Ersteres fällt für mich aus weil ich keinen C++-Compiler habe und diese meiner Recherche nach nicht gratis erhältlich sind. Für den anderen Lösungsansatz kam mir direkt ImageMagick in den Sinn. In einem anderem Forum habe ich dann das entsprechende Kommando zum Aufrufen mit Imagemagick gefunden was die Kompression entfernen soll, nur leider gab Tesseract dann nur noch Datenmüll aus (auch wenn das Fax von Menschen noch einwandfrei lesbar war).
Durch Zufall habe ich dann herausgefunden, dass die ganze Geschichte doch mit ImageMagick funktioniert wenn man die Ausgangsdatei in ein tif mit FAX-Kompression (was auch immer das genau sein soll, denn eigentlich gibt es da ja mehrere Standards...) umwandelt. Eigentlich dachte ich ja, dass Tesseract 2 nicht mit komprimierten Dateien umgehen kann, aber anscheinend funktioniert das doch.
Der Syntax für das Umwandeln der Datei lautet (für Linux ebenso wie Windows):
convert *ursprünglicher Dateiname* -compress fax *neuer Dateiname*
wobei man auch beides Mal den gleichen Dateinamen angeben kann, dann wird die Ausgangsdatei halt überschrieben.
Vielleicht hilft es ja jemandem.
Grüße, Christoph