OCR Tesseract

**Flori95** · 11.11.2012, 08:57

Problem bei dem Post is, dass das Daten für eine alte Tesseract Version sind ... ==> Inkompatibel.
Ein versuch wäre es die deutschen Daten von der Tesseract Seite selber zu verwenden.
Sonst ich hab mal eine Schriftart für unsere Faxe "erlernnt" vielleicht hilft die weiter. (s.Anhang)
Notfalls erlerne ich se dir schnell ich brauch mindestens 3-4 verschiedene Faxe (je mehr desto besser) :D Rest geht eig ganz easy einfach ma "nachtippen".

**Allmächtiger** · 12.11.2012, 08:18

Ich stand vor dem selben Problem. Hab mich damals dann dafür entschieden, einfach die Version 2 anstatt der Version 3 zu nehmen, da die neuen Funktionen für mich nicht relevant waren. Und in Version 2 geht dann auch die hier eingestellte Tesseract-Schrift.
Läuft alles absolut reibungslos. Probleme gibt es nur beim großen Ö was als O erkannt wird und ein paar Sonderzeichen, aber das ist so gering und selten dass die menschliche Fehlerkorrektur das ohne Probleme hin bekommt ;-)

**Flori95** · 16.01.2013, 20:56

Sers,
ich weiß ned ob das hier noch von Interesse ist aber ich hab nun aufgrund von meiner Mithilfe bei AlarmWorkflow ne bessere TrainedData erstellt.
Diese bassiert auf knapp 40-50 Faxen verschiendener ILS'sen
Derzeit vorhanden sind folgende Zeichen bzw diese wurden speziell von mir trainiert.
Desweiteren hab ich ein "Wörterbuch" mit den häufigsten Wörtern auf so einem Fax eingebaut (Straße, Stichwort,...) sodass es da zu einer höheren Trefferrate kommt.

Code:

'0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '-', '!', '#', '&', '(', ')', ',', '.', '/', ':', '[', ']', '‚', '+', '=', '>', 'A', 'a', 'ä', 'B', 'b', 'c', 'C', 'd', 'D', 'e', 'E', 'f', 'F', 'g', 'G', 'h', 'H', 'I', 'i', 'j', 'J', 'K', 'k', 'l', 'L', 'm', 'M', 'n', 'N', 'o', 'O', 'ö', 'Ö', 'P', 'p', 'Q', 'r', 'R', 'S', 's', 'ß', 'T', 't', 'u', 'U', 'Ü', 'ü', 'V', 'v', 'W', 'w', 'x', 'X', 'y', 'z', 'Z'

Ich hoffe das hilft euch ggf. noch weiter.
LG

**duesi** · 17.01.2013, 10:42

Wie bekomme ich die Datei ins Tesseract

**Flori95** · 17.01.2013, 17:38

Hi,
einfach die alarm.traineddata in den tessdata-Ordner kopieren und dann Tesseract wiefolgt aufrufen:

Code:

tesseract.exe imagename outputbase -l alarm (ggf. noch weitere Paramter wie z.b. -psm 6)

Solltest du firEmergency verwendet muss meines Wissens nach alarm.traineddata in deu.traineddata umbenennen bzw. ersetzen.
LG

P.S. Würde mich über eine Rückmeldung freuen ob die Erkennung besser ist.

**firEmergency** · 17.01.2013, 18:18

Da kann man nur eins sagen:
TOP!!

Jetzt ist Tesseract endlich brauchbar! Tesseract hatte bei uns vor allem Probleme bei Umlauten, Klammern, Doppelpunkten, etc.
Das gibts jetzt alles nicht mehr! Jetzt ist die Erkennung mindestens genauso gut wie bei ABBYY (zumindest bei unserem Fax)!

Sehr gute Arbeit!

**Flori95** · 17.01.2013, 18:34

Sowas freut mich doch zu hören :)

Thema: OCR Tesseract

Themen-Optionen

Anzeige

Hybrid-Darstellung

Aktive Benutzer

Aktive Benutzer

Berechtigungen