Ergebnis 1 bis 13 von 13

Thema: OCR Tesseract

Hybrid-Darstellung

Vorheriger Beitrag Vorheriger Beitrag   Nächster Beitrag Nächster Beitrag
  1. #1
    Registriert seit
    02.11.2011
    Beiträge
    134
    Problem bei dem Post is, dass das Daten für eine alte Tesseract Version sind ... ==> Inkompatibel.
    Ein versuch wäre es die deutschen Daten von der Tesseract Seite selber zu verwenden.
    Sonst ich hab mal eine Schriftart für unsere Faxe "erlernnt" vielleicht hilft die weiter. (s.Anhang)
    Notfalls erlerne ich se dir schnell ich brauch mindestens 3-4 verschiedene Faxe (je mehr desto besser) :D Rest geht eig ganz easy einfach ma "nachtippen".
    Angehängte Dateien Angehängte Dateien
    • Dateityp: zip fax.zip (173,6 KB, 241x aufgerufen)
    Geändert von Flori95 (11.11.2012 um 09:18 Uhr)

  2. #2
    Registriert seit
    16.12.2004
    Beiträge
    1.102
    Ich stand vor dem selben Problem. Hab mich damals dann dafür entschieden, einfach die Version 2 anstatt der Version 3 zu nehmen, da die neuen Funktionen für mich nicht relevant waren. Und in Version 2 geht dann auch die hier eingestellte Tesseract-Schrift.
    Läuft alles absolut reibungslos. Probleme gibt es nur beim großen Ö was als O erkannt wird und ein paar Sonderzeichen, aber das ist so gering und selten dass die menschliche Fehlerkorrektur das ohne Probleme hin bekommt ;-)

  3. #3
    Registriert seit
    02.11.2011
    Beiträge
    134
    Sers,
    ich weiß ned ob das hier noch von Interesse ist aber ich hab nun aufgrund von meiner Mithilfe bei AlarmWorkflow ne bessere TrainedData erstellt.
    Diese bassiert auf knapp 40-50 Faxen verschiendener ILS'sen
    Derzeit vorhanden sind folgende Zeichen bzw diese wurden speziell von mir trainiert.
    Desweiteren hab ich ein "Wörterbuch" mit den häufigsten Wörtern auf so einem Fax eingebaut (Straße, Stichwort,...) sodass es da zu einer höheren Trefferrate kommt.
    Code:
    '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '-', '!', '#', '&', '(', ')', ',', '.', '/', ':', '[', ']', '‚', '+', '=', '>', 'A', 'a', 'ä', 'B', 'b', 'c', 'C', 'd', 'D', 'e', 'E', 'f', 'F', 'g', 'G', 'h', 'H', 'I', 'i', 'j', 'J', 'K', 'k', 'l', 'L', 'm', 'M', 'n', 'N', 'o', 'O', 'ö', 'Ö', 'P', 'p', 'Q', 'r', 'R', 'S', 's', 'ß', 'T', 't', 'u', 'U', 'Ü', 'ü', 'V', 'v', 'W', 'w', 'x', 'X', 'y', 'z', 'Z'
    Ich hoffe das hilft euch ggf. noch weiter.
    LG
    Angehängte Dateien Angehängte Dateien

  4. #4
    Registriert seit
    10.12.2001
    Beiträge
    268
    Wie bekomme ich die Datei ins Tesseract

  5. #5
    Registriert seit
    02.11.2011
    Beiträge
    134
    Hi,
    einfach die alarm.traineddata in den tessdata-Ordner kopieren und dann Tesseract wiefolgt aufrufen:
    Code:
    tesseract.exe imagename outputbase -l alarm (ggf. noch weitere Paramter wie z.b. -psm 6)
    Solltest du firEmergency verwendet muss meines Wissens nach alarm.traineddata in deu.traineddata umbenennen bzw. ersetzen.
    LG

    P.S. Würde mich über eine Rückmeldung freuen ob die Erkennung besser ist.

  6. #6
    Registriert seit
    09.01.2010
    Beiträge
    3.908
    Da kann man nur eins sagen:
    TOP!!

    Jetzt ist Tesseract endlich brauchbar! Tesseract hatte bei uns vor allem Probleme bei Umlauten, Klammern, Doppelpunkten, etc.
    Das gibts jetzt alles nicht mehr! Jetzt ist die Erkennung mindestens genauso gut wie bei ABBYY (zumindest bei unserem Fax)!

    Sehr gute Arbeit!

  7. #7
    Registriert seit
    02.11.2011
    Beiträge
    134
    Sowas freut mich doch zu hören :)

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •