Neues Input-Plugin: Alarmfax-Analyse

**firEmergency** · 11.11.2011, 19:51

Hi,
ich möchte euch mal auf ein eventuell neues Input-Plugin vorbereiten. Mit Hilfe von Flori95 wird es irgendwann mal eine Alarmfax-Analyse geben.

Dies wird als Input-Plugin umgesetzt. Da eine OCR-Analyse keinesfalls einfach ist, werdet ihr aber die OCR-Erkennung an eure Schriftart trainieren müssen.
Auch das erfordert ein bisschen Einarbeitung (http://code.google.com/p/tesseract-o...ningTesseract3 oder http://vietocr.sourceforge.net/training.html).
Mit dem momentanen Stand könnte man schon arbeiten, weil fast alles gut erkannt wird (Probleme: o>0 y>V ....). Um diese Quote zu verbessern, muss das Programm trainiert werden.

Was mich jetzt interessieren würde:

Wie stellt ihr euch die Alarmierung vor? Anhand von Stichwörter bestimmte Einheiten alarmieren (was aber kritisch sein kann, da bei einem falsch erkannten Zeichen auch aus versehen die falsche Einheit alarmiert werden könnte)?
Oder immer die gleiche Einheit?

Außerdem:
Gibt es Demo-Faxe (wie zum Beispiel von der ILS Donau-Iller), die ohne Datenschutzbedenken frei verfügbar sind?

Würde gerne allgemein mal testen, wie die momentane Erkennung ist.

Was wir uns eventuell auch überlegen:
Wir würden (wenn wir dazu Zeit finden) euch auch anbieten, das Training (gegen einen kleinen Unkostenbeitrag) zu übernehmen.
Aber ich möchte da jetzt nichts versprechen. Das ist nur so eine Idee von uns.

Im Anhang hab ich zwei Dateien. Die erste ist das Fax aus der ILS Donau-Iller. Die zweite ist das was aus der OCR-Erkennung rauskam.
WICHTIG:
Der OCR-Scanner wurde für diese Schriftart jetzt nicht optimiert, aber hat doch schon eine sehr gute Trefferrate. Mit ein bisschen mehr Training, würde man bestimmt 98% Trefferrate erreichen.

**Flori95** · 12.11.2011, 18:27

Kleine Ergänzung:
Leider müssen die Faxe im Tif-Format vorliegen, damit man diese verarbeiten kann.
Was mich persönlich noch interessiert wie stellts ihr euch die "Auslösung" vom Alarm vor. ("Ordnerüberwachung" oder "Anstoßen" von außen wie die Alarm.exe)?
LG
Florian

P.S. Das Schriftarten trainieren ist nicht so schlimm wie man vielleicht denkt und auch sehr effektiv, nur das Problem mit dem "=" habe ich noch nicht raus gebekommen ==> :(eig immer) und -(fast nie) werden als = erkannt

**Flori95** · 13.11.2011, 10:46

Wörterbücher sind das Lösungswort :) man lege sich die in der Anleitung beschriebenen Wörterbücher an und füllt diese mit häufigen Stichwörtern und so (sache von 3 min) und verwendet die dann :)

**chrish** · 14.11.2011, 10:35

Zitat von Flori95

Was mich persönlich noch interessiert wie stellts ihr euch die "Auslösung" vom Alarm vor. ("Ordnerüberwachung" oder "Anstoßen" von außen wie die Alarm.exe)?

Ordnerüberwachung.
In was für einer Sprache programmierst Du denn die Auswertung?
Wir haben da schon was nettes im Einsatz zur Auswertung.
Gruß

**Flori95** · 14.11.2011, 10:51

Java in Verbindung mit Tesseract OCR und wie gesagt das ganze ist 1woche alt und wenn man ganz perfekte Ergebnisse braucht soll man mit Wörterbüchern arbeiten :)

feodor · 14.11.2011, 14:08

Zitat von chrish

Ordnerüberwachung.
In was für einer Sprache programmierst Du denn die Auswertung?
Wir haben da schon was nettes im Einsatz zur Auswertung.
Gruß

Kannst du bisschen ins Detail gehen? Ist das eine Open Source Lösung / kommerzielle Lösung?
Alle Tipps helfen uns hier weiter.

**Mitgucker** · 22.11.2011, 18:45

Hallo feodor,

kennts Du die Seite von openfiresource, die hatten so etwas auf Java Basis mit Tesseract für die ILS München.

Grüße

**MasterOfFire** · 23.11.2011, 15:28

gibts das auch als Standalone version ???

Gruß Master.............

feodor · 24.11.2011, 16:34

Zitat von Mitgucker

Hallo feodor,

kennts Du die Seite von openfiresource, die hatten so etwas auf Java Basis mit Tesseract für die ILS München.

Grüße

Hi, kenne ich nicht. Aber ich denke die Alarmfaxanalyse kommt nicht allzu gut an, bzw. das Interesse ist sehr niedrig, also wirds nicht weiter entwickelt :-)

**Hausen** · 24.11.2011, 21:21

Hallo,

das bleibt solange uninteressant bis der Funk fast überall verschlüsselt wird. Und dann wird diese Möglichkeit eine sicherlich gute alternative sein, denn das Fax kommt bei uns recht schnell an.

Also ich fände es gut wenn was entwickelt werden würde.

Gruß Hausen

feodor · 24.11.2011, 22:37

Zitat von Hausen

Hallo,

das bleibt solange uninteressant bis der Funk fast überall verschlüsselt wird. Und dann wird diese Möglichkeit eine sicherlich gute alternative sein, denn das Fax kommt bei uns recht schnell an.

Also ich fände es gut wenn was entwickelt werden würde.

Gruß Hausen

Dann muss hier eine solide Diskussion bezogen auf den Ausgangsbeitrag ganz oben entstehen.
Da wurden ja ein paar konkrete Fragen gestellt.

VG

**Flori95** · 25.11.2011, 07:04

Hi,
ich habe ja das ganze Projekt angeleiert, nun ist der Punkt n bisschen ich habe das alles auf meine Feuerwehr optimiert und eingestellt. Ich könnte natürlich jetzt die Version in die Menge schmeißen und dann einfach euch damit basteln lassen. Alternativ streich mas ganz oder ich versuche mich noch, dass ganze noch ne nummer allgemeiner zu machen, das ist aber nicht leicht!. Ich will gleich sagen: Um das Schriftarten trainieren kommts ihr ned drumm herum!.
LG

**firEmergency** · 25.11.2011, 09:33

Das hatte ich ja ganz oben auch mal geschrieben. Das Input-Plugin an sich, wäre ja theoretisch fertig. Wie gut das ganze dan auswertet, hängt halt von der Auswertroutine an sich ab. Da habe wir (direkt) keinen Einfluss. Eben nur indirekt durch das Training der Schriftarten.

Eine Frage (von dem ich jetzt noch niemand einen konkreten Vorschlag erhalten hatte), die mich noch interessiert:

Wie soll den die Alarmzuordnung geschehen? Also wenn ein Fax eingeht, welche Einheit soll dann alarmiert werden? Momentan wäre es das einfachste, einfach ein paar Einheiten festzulegen (ähnlich wie Alive-Plugin, etc.).
Eine Alarmierung anhand von Stichwörtern im Fax halte ich für problematisch.

Eure Vorschläge?

@Flori
Wie machst du momentan die Zuordnung? Immer die gleiche Einheit?

**The_Stig** · 25.11.2011, 11:25

Zitat von firEmergency

Eure Vorschläge?

Mein Vorschlag, aus der (sehr positiven) Erfahrung mit openfiresource heraus:

Dort kann im Übrigen zwischen Tesseract und Cuneiform als OCR Software gewählt werden, standardmässig wird letzteres verwendet. Was mich ein wenig wundert, ist der Begriff "Schriftartentraining"?! Cuneinform liefert mit der (simplen) Einstellung "einspaltig, deutsch" zu 99% perfekte Ergebnisse. Härtefälle wie "ß --> B" wird es in jeder Software geben, aber das lässt sich bei dem sehr begrenzten Wortschatz eines Alarmfaxes (Alle Stichwörter sind bekannt, alle Straßen im Einsatzgebiet und alarmierbare Fahrzeuge auch) leicht durch Textersetzungen lösen.

Hauptproblem ist bei openfiresource ist, dass die individuellen Anpassungen für ein spezielles Alarmfax vor dem Kompilieren im Quellcode festgelegt werden müssen. Wenn man die Einstellungen in eine GUI "rausziehen" würde, sehe ich technisch überhaupt kein Problem für die Umsetzung eines ähnlich/genauso gestalteten Fax Input-Plugins für FE.

Konkreter Vorschlag:

Programmierung eines Plugins, dass einen (frei wählbaren) Ordner alle x Sekuknden auf eingehende Faxe (*.tif) überwacht und bei Eingang diese einer Texterkennung zuführt.

Einstellungsmöglichkeiten:
*Eine vom Benutzer verwaltbare Tabelle mit Textersetzungen (z.B. StraBe --> Straße)

*Eine vom Benutzer anpassbare Liste zur Zuordnung von im Text gefundenen Wörtern zu Variablen z.B. (Falls Wort "Schlagw." im *.tif gefunden, Variable %Stichwort = Zeileninhalt der nach "Schlagw. :" kommt.)

*Möglichkeit einen Alarmtext aus den einzelnen Variablen zu basteln (%Datum, %Uhrzeit, %Stichwort, %Strasse %Hausnummer) etc.

Daraus könnten dann (Blacklist/Whitelist) je nach Wunsch und Stichwort individuelle Einheiten alarmiert werden.

**firEmergency** · 25.11.2011, 12:44

Endlich mal ein konkrer Vorschlag. Hier mal ein paar Anmerkungen:

Zitat von The_Stig

Mein Vorschlag, aus der (sehr positiven) Erfahrung mit openfiresource heraus:

Dort kann im Übrigen zwischen Tesseract und Cuneiform als OCR Software gewählt werden, standardmässig wird letzteres verwendet. Was mich ein wenig wundert, ist der Begriff "Schriftartentraining"?! Cuneinform liefert mit der (simplen) Einstellung "einspaltig, deutsch" zu 99% perfekte Ergebnisse. Härtefälle wie "ß --> B" wird es in jeder Software geben, aber das lässt sich bei dem sehr begrenzten Wortschatz eines Alarmfaxes (Alle Stichwörter sind bekannt, alle Straßen im Einsatzgebiet und alarmierbare Fahrzeuge auch) leicht durch Textersetzungen lösen.

Hättest du ein Beispiel (Beispiel-Ordner oder Beispiel-Seite) zu Cuneinform? Eventuell ist das ja besser als Tesseract.

Zitat von The_Stig

Programmierung eines Plugins, dass einen (frei wählbaren) Ordner alle x Sekuknden auf eingehende Faxe (*.tif) überwacht und bei Eingang diese einer Texterkennung zuführt.

Ja, das ist bereits so implementiert.

Zitat von The_Stig

Einstellungsmöglichkeiten:
*Eine vom Benutzer verwaltbare Tabelle mit Textersetzungen (z.B. StraBe --> Straße)

Da ist jetzt die Frage: Reicht das nicht in der Alarmpipeline dann? Da könnte man dass dann mit der Textersetzung realisieren. Das wäre zumindest einfacher und "logischer"

Zitat von The_Stig

*Eine vom Benutzer anpassbare Liste zur Zuordnung von im Text gefundenen Wörtern zu Variablen z.B. (Falls Wort "Schlagw." im *.tif gefunden, Variable %Stichwort = Zeileninhalt der nach "Schlagw. :" kommt.)

Da muss man dann natürlich hoffen, dass dieses Stichwort richtig erkannt wird. Weil wenn hier ein Buchstabendreher vorkommt, dann wird natürlich auch die Zeile nicht erkannt.
Aber vom Prinzip her, haben wir das auch schon so umgesetzt (momentan aber hard-codiert und nicht flexibel)

Zitat von The_Stig

*Möglichkeit einen Alarmtext aus den einzelnen Variablen zu basteln (%Datum, %Uhrzeit, %Stichwort, %Strasse %Hausnummer) etc.

Das ist natürlich klar. Mit dem Alarmtext[Expert] lässt sich genau soetwas realisieren.

Thema: Neues Input-Plugin: Alarmfax-Analyse

Themen-Optionen

Anzeige

Neues Input-Plugin: Alarmfax-Analyse

Fax-Source-Code

Vorschlag

Aktive Benutzer

Aktive Benutzer

Berechtigungen