Ergebnis 1 bis 13 von 13

Thema: OCR Tesseract

  1. #1
    Registriert seit
    28.01.2007
    Beiträge
    696

    OCR Tesseract

    Hallo an alle,

    kann mir einer die Schrift unseres Alarmfax auf das OCR Tesseract einlernen ?
    Soweit ist Funktion da abler leider noch viele Fehlauswerungen ...



    Danke an euch
    Gruß MasterOfFire

  2. #2
    Registriert seit
    27.02.2002
    Beiträge
    5.255
    Zitat Zitat von MasterOfFire Beitrag anzeigen
    Hallo an alle,

    kann mir einer die Schrift unseres Alarmfax auf das OCR Tesseract einlernen ?
    Soweit ist Funktion da abler leider noch viele Fehlauswerungen ...



    Danke an euch
    Warum machst es nicht selbst?
    Eine Schrift vernünftig einlernen dauert Stunden.
    Wir lassen Messer und Gabel liegen ...
    ... um mit der "Schere" anderen zu helfen.

  3. #3
    Registriert seit
    28.01.2007
    Beiträge
    696
    Ja gerne kann ich das machen.
    Gibts aber auch eine anleitung Dazu? ?
    und wenn möglich auf deutsch.
    Ich arbeite. mit Win XP.
    Gruß MasterOfFire

  4. #4
    Registriert seit
    27.02.2002
    Beiträge
    5.255
    http://wiki.ubuntuusers.de/tesseract...ocr_trainieren

    Die Programme gibts auch für Windows, die Anleitung bleibt gleich.
    Wir lassen Messer und Gabel liegen ...
    ... um mit der "Schere" anderen zu helfen.

  5. #5
    Registriert seit
    28.01.2007
    Beiträge
    696
    Danke....


    dan werd ich mich mal da rein setzen :-)
    Gruß MasterOfFire

  6. #6
    Registriert seit
    16.12.2004
    Beiträge
    1.102
    Schau mal in den Thread hier, falls eure Leitstelle Cobra verwendet oder ihr eine "Schreibmaschinenschrift" auf dem Fax habt, da hat jemand Tesseract schon eine Schrift beigebracht, vielleicht funktioniert es dann auch mit eurer:

    http://www.funkmeldesystem.de/foren/...0&postcount=59

    Falls du den Thread schon kennst (du hattest damals auch da gepostet) dann will ich nix gesagt haben, ich vergesse manchmal auch wo ich schon überall gepostet hab...

  7. #7
    Registriert seit
    02.11.2011
    Beiträge
    134
    Problem bei dem Post is, dass das Daten für eine alte Tesseract Version sind ... ==> Inkompatibel.
    Ein versuch wäre es die deutschen Daten von der Tesseract Seite selber zu verwenden.
    Sonst ich hab mal eine Schriftart für unsere Faxe "erlernnt" vielleicht hilft die weiter. (s.Anhang)
    Notfalls erlerne ich se dir schnell ich brauch mindestens 3-4 verschiedene Faxe (je mehr desto besser) :D Rest geht eig ganz easy einfach ma "nachtippen".
    Angehängte Dateien Angehängte Dateien
    • Dateityp: zip fax.zip (173,6 KB, 218x aufgerufen)
    Geändert von Flori95 (11.11.2012 um 09:18 Uhr)

  8. #8
    Registriert seit
    16.12.2004
    Beiträge
    1.102
    Ich stand vor dem selben Problem. Hab mich damals dann dafür entschieden, einfach die Version 2 anstatt der Version 3 zu nehmen, da die neuen Funktionen für mich nicht relevant waren. Und in Version 2 geht dann auch die hier eingestellte Tesseract-Schrift.
    Läuft alles absolut reibungslos. Probleme gibt es nur beim großen Ö was als O erkannt wird und ein paar Sonderzeichen, aber das ist so gering und selten dass die menschliche Fehlerkorrektur das ohne Probleme hin bekommt ;-)

  9. #9
    Registriert seit
    02.11.2011
    Beiträge
    134
    Sers,
    ich weiß ned ob das hier noch von Interesse ist aber ich hab nun aufgrund von meiner Mithilfe bei AlarmWorkflow ne bessere TrainedData erstellt.
    Diese bassiert auf knapp 40-50 Faxen verschiendener ILS'sen
    Derzeit vorhanden sind folgende Zeichen bzw diese wurden speziell von mir trainiert.
    Desweiteren hab ich ein "Wörterbuch" mit den häufigsten Wörtern auf so einem Fax eingebaut (Straße, Stichwort,...) sodass es da zu einer höheren Trefferrate kommt.
    Code:
    '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '-', '!', '#', '&', '(', ')', ',', '.', '/', ':', '[', ']', '‚', '+', '=', '>', 'A', 'a', 'ä', 'B', 'b', 'c', 'C', 'd', 'D', 'e', 'E', 'f', 'F', 'g', 'G', 'h', 'H', 'I', 'i', 'j', 'J', 'K', 'k', 'l', 'L', 'm', 'M', 'n', 'N', 'o', 'O', 'ö', 'Ö', 'P', 'p', 'Q', 'r', 'R', 'S', 's', 'ß', 'T', 't', 'u', 'U', 'Ü', 'ü', 'V', 'v', 'W', 'w', 'x', 'X', 'y', 'z', 'Z'
    Ich hoffe das hilft euch ggf. noch weiter.
    LG
    Angehängte Dateien Angehängte Dateien

  10. #10
    Registriert seit
    10.12.2001
    Beiträge
    268
    Wie bekomme ich die Datei ins Tesseract

  11. #11
    Registriert seit
    02.11.2011
    Beiträge
    134
    Hi,
    einfach die alarm.traineddata in den tessdata-Ordner kopieren und dann Tesseract wiefolgt aufrufen:
    Code:
    tesseract.exe imagename outputbase -l alarm (ggf. noch weitere Paramter wie z.b. -psm 6)
    Solltest du firEmergency verwendet muss meines Wissens nach alarm.traineddata in deu.traineddata umbenennen bzw. ersetzen.
    LG

    P.S. Würde mich über eine Rückmeldung freuen ob die Erkennung besser ist.

  12. #12
    Registriert seit
    09.01.2010
    Beiträge
    3.908
    Da kann man nur eins sagen:
    TOP!!

    Jetzt ist Tesseract endlich brauchbar! Tesseract hatte bei uns vor allem Probleme bei Umlauten, Klammern, Doppelpunkten, etc.
    Das gibts jetzt alles nicht mehr! Jetzt ist die Erkennung mindestens genauso gut wie bei ABBYY (zumindest bei unserem Fax)!

    Sehr gute Arbeit!

  13. #13
    Registriert seit
    02.11.2011
    Beiträge
    134
    Sowas freut mich doch zu hören :)

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •