PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : OCR Tesseract



MasterOfFire
05.11.2012, 20:46
Hallo an alle,

kann mir einer die Schrift unseres Alarmfax auf das OCR Tesseract einlernen ?
Soweit ist Funktion da abler leider noch viele Fehlauswerungen ...



Danke an euch

Alex22
05.11.2012, 22:06
Hallo an alle,

kann mir einer die Schrift unseres Alarmfax auf das OCR Tesseract einlernen ?
Soweit ist Funktion da abler leider noch viele Fehlauswerungen ...



Danke an euch

Warum machst es nicht selbst?
Eine Schrift vernünftig einlernen dauert Stunden.

MasterOfFire
06.11.2012, 13:27
Ja gerne kann ich das machen.
Gibts aber auch eine anleitung Dazu? ?
und wenn möglich auf deutsch.
Ich arbeite. mit Win XP.

Alex22
06.11.2012, 13:33
http://wiki.ubuntuusers.de/tesseract-ocr/tesseract-ocr_trainieren

Die Programme gibts auch für Windows, die Anleitung bleibt gleich.

MasterOfFire
06.11.2012, 17:09
Danke....


dan werd ich mich mal da rein setzen :-)

Allmächtiger
10.11.2012, 22:25
Schau mal in den Thread hier, falls eure Leitstelle Cobra verwendet oder ihr eine "Schreibmaschinenschrift" auf dem Fax habt, da hat jemand Tesseract schon eine Schrift beigebracht, vielleicht funktioniert es dann auch mit eurer:

http://www.funkmeldesystem.de/foren/showpost.php?p=403310&postcount=59

Falls du den Thread schon kennst (du hattest damals auch da gepostet) dann will ich nix gesagt haben, ich vergesse manchmal auch wo ich schon überall gepostet hab...

Flori95
11.11.2012, 08:57
Problem bei dem Post is, dass das Daten für eine alte Tesseract Version sind ... ==> Inkompatibel.
Ein versuch wäre es die deutschen Daten von der Tesseract Seite selber zu verwenden.
Sonst ich hab mal eine Schriftart für unsere Faxe "erlernnt" vielleicht hilft die weiter. (s.Anhang)
Notfalls erlerne ich se dir schnell ich brauch mindestens 3-4 verschiedene Faxe (je mehr desto besser) :D Rest geht eig ganz easy einfach ma "nachtippen".

Allmächtiger
12.11.2012, 08:18
Ich stand vor dem selben Problem. Hab mich damals dann dafür entschieden, einfach die Version 2 anstatt der Version 3 zu nehmen, da die neuen Funktionen für mich nicht relevant waren. Und in Version 2 geht dann auch die hier eingestellte Tesseract-Schrift.
Läuft alles absolut reibungslos. Probleme gibt es nur beim großen Ö was als O erkannt wird und ein paar Sonderzeichen, aber das ist so gering und selten dass die menschliche Fehlerkorrektur das ohne Probleme hin bekommt ;-)

Flori95
16.01.2013, 20:56
Sers,
ich weiß ned ob das hier noch von Interesse ist aber ich hab nun aufgrund von meiner Mithilfe bei AlarmWorkflow ne bessere TrainedData erstellt.
Diese bassiert auf knapp 40-50 Faxen verschiendener ILS'sen
Derzeit vorhanden sind folgende Zeichen bzw diese wurden speziell von mir trainiert.
Desweiteren hab ich ein "Wörterbuch" mit den häufigsten Wörtern auf so einem Fax eingebaut (Straße, Stichwort,...) sodass es da zu einer höheren Trefferrate kommt.


'0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '-', '!', '#', '&', '(', ')', ',', '.', '/', ':', '[', ']', '‚', '+', '=', '>', 'A', 'a', 'ä', 'B', 'b', 'c', 'C', 'd', 'D', 'e', 'E', 'f', 'F', 'g', 'G', 'h', 'H', 'I', 'i', 'j', 'J', 'K', 'k', 'l', 'L', 'm', 'M', 'n', 'N', 'o', 'O', 'ö', 'Ö', 'P', 'p', 'Q', 'r', 'R', 'S', 's', 'ß', 'T', 't', 'u', 'U', 'Ü', 'ü', 'V', 'v', 'W', 'w', 'x', 'X', 'y', 'z', 'Z'

Ich hoffe das hilft euch ggf. noch weiter.
LG

duesi
17.01.2013, 10:42
Wie bekomme ich die Datei ins Tesseract

Flori95
17.01.2013, 17:38
Hi,
einfach die alarm.traineddata in den tessdata-Ordner kopieren und dann Tesseract wiefolgt aufrufen:


tesseract.exe imagename outputbase -l alarm (ggf. noch weitere Paramter wie z.b. -psm 6)

Solltest du firEmergency verwendet muss meines Wissens nach alarm.traineddata in deu.traineddata umbenennen bzw. ersetzen.
LG

P.S. Würde mich über eine Rückmeldung freuen ob die Erkennung besser ist.

firEmergency
17.01.2013, 18:18
Da kann man nur eins sagen:
TOP!!

Jetzt ist Tesseract endlich brauchbar! Tesseract hatte bei uns vor allem Probleme bei Umlauten, Klammern, Doppelpunkten, etc.
Das gibts jetzt alles nicht mehr! Jetzt ist die Erkennung mindestens genauso gut wie bei ABBYY (zumindest bei unserem Fax)!

Sehr gute Arbeit!

Flori95
17.01.2013, 18:34
Sowas freut mich doch zu hören :)