Hi,
ich möchte euch mal auf ein eventuell neues Input-Plugin vorbereiten. Mit Hilfe von Flori95 wird es irgendwann mal eine Alarmfax-Analyse geben.
Dies wird als Input-Plugin umgesetzt. Da eine OCR-Analyse keinesfalls einfach ist, werdet ihr aber die OCR-Erkennung an eure Schriftart trainieren müssen.
Auch das erfordert ein bisschen Einarbeitung (http://code.google.com/p/tesseract-o...ningTesseract3 oder http://vietocr.sourceforge.net/training.html).
Mit dem momentanen Stand könnte man schon arbeiten, weil fast alles gut erkannt wird (Probleme: o>0 y>V ....). Um diese Quote zu verbessern, muss das Programm trainiert werden.
Was mich jetzt interessieren würde:
Wie stellt ihr euch die Alarmierung vor? Anhand von Stichwörter bestimmte Einheiten alarmieren (was aber kritisch sein kann, da bei einem falsch erkannten Zeichen auch aus versehen die falsche Einheit alarmiert werden könnte)?
Oder immer die gleiche Einheit?
Außerdem:
Gibt es Demo-Faxe (wie zum Beispiel von der ILS Donau-Iller), die ohne Datenschutzbedenken frei verfügbar sind?
Würde gerne allgemein mal testen, wie die momentane Erkennung ist.
Was wir uns eventuell auch überlegen:
Wir würden (wenn wir dazu Zeit finden) euch auch anbieten, das Training (gegen einen kleinen Unkostenbeitrag) zu übernehmen.
Aber ich möchte da jetzt nichts versprechen. Das ist nur so eine Idee von uns.
Im Anhang hab ich zwei Dateien. Die erste ist das Fax aus der ILS Donau-Iller. Die zweite ist das was aus der OCR-Erkennung rauskam.
WICHTIG:
Der OCR-Scanner wurde für diese Schriftart jetzt nicht optimiert, aber hat doch schon eine sehr gute Trefferrate. Mit ein bisschen mehr Training, würde man bestimmt 98% Trefferrate erreichen.