Texteinlesen mit einem OCR-Standardprogramm

Der typische Arbeitsablauf besteht aus den Schritten:

  1. Einscannen einer oder mehrerer Testseiten. Dabei sollten Helligkeit und Kontrast so angepasst werden, dass der Text auf dem eingescannten Bild gut lesbar ist.
  2. Starten Sie dann den Erkennungsvorgang für diese Seiten.
    Prüfen Sie die Anzahl der Fehler. 

    Versuchen Sie das Ergebnis durch Veränderung von Helligkeit, Kontrast und dem Einsatz eines eventuell vorhandenen Verschmutzungskorrekturwerkzeuges zu verbessern.

    Achten Sie besonders auf die richtige Erkennung von Satzzeichen, Akzenten und Umlauten.

  3. Sollte das Ergebnis auch jetzt noch nicht akzeptabel sein, können Sie bei einigen Programmen den Erkennungsvorgang trainieren.
  4. Scannen Sie jetzt alle Seiten ein. Je nach Scanner, Programm und Vorlage sind hierfür unterschiedliche Verarbeitungsschritte notwendig.
  5. Prüfen Sie nach, ob alle Seiten vollständig und in der richtigen Reihenfolge eingescannt wurden.
  6. Markieren Sie jetzt die Erkennungsbereiche und löschen Sie nicht benötigte Bereiche (z. B. Kopf−, Fuß− und Randbereiche).Oder überlassen Sie diesen Vorgang dem OCR−Programm. Prüfen Sie in diesem Fall, ob die automatische Erkennung korrekt ist. Lassen Sie jetzt den Erkennungsvorgang ablaufen.
  7. Das OCR-Prgramm wird Ihnen einen Text liefern, der nach meiner Erfahrung verschiedene Markierungen enthält:
    • nicht erkannte Buchstaben und Buchstabenkombinationen
    • unsicher erkannte Buchstaben und Buchstabenkombinationen
    • unbekannte Wörter
  8. Wenn möglich, sollten Sie den Text vor Beginn der Korrektur sichern.
  9. Prüfen Sie den erhaltenen Text und korrigrieren Sie die Fehler. Denken Sie dabei daran, Trennungen durch Trennvorschläge zu ersetzen oder sie zu löschen, wenn Sie den Text später in einem anderen Format wieder ausgeben wollen.
    • Achten Sie besonders auf Satzzeichen, Akzente, Umlaute, Gedankenstriche, Klammern und Anführungszeichen.
    • Prüfen Sie den erhaltenen Text auf Vollständigkeit.
    • Setzen Sie eventuell vorhandene Suchen- und Ersetzenfunktionen vorsichtig ein. Eine fehlerhafte, nicht sofort erkannte automatische Ersetzung ist oft nur durch mühsame manuelle Arbeit wieder rückgängig zu machen.
    • Sie können diesen Korrekturvorgang auch mit Ihrem Textverarbeitungsprogramm erledigen, verzichten dabei aber in der Regel auf die synchrone Darstellung der Bilddaten.
  10. Legen Sie den fertig korrigierten Text in dem gewünschten Ausgabeformat ab.
  11. Lesen Sie die erhaltene Datei in Ihrem Zielprogramm ein, gestalten und strukturieren Sie sie.
  12. Anschließend sollten Sie das erhaltene Produkt unbedingt noch einmal Korrektur lesen lassen.

Sie werden bei der Nachbearbeitung in vielen Fällen feststellen, dass

  • der Zeitaufwand für die Korrektur erheblich ist.
  • aufgrund zu kleiner Wörterbücher richtige Wörter als unbekannt markiert sind.
  • als unsicher erkannte Zeichenkombinationen meist richtig sind.
  • als richtig erkannte Zeichen häufiger falsch sind.
  • Satzzeichen, Akzente und Umlaute fehlen.
  • Anführungen, Gedankenstriche und Minuszeichen nicht richtig erkannt werden.
  • Textgestaltungen nicht richtig übernommen wurden.
  • Textbereiche fehlen.

Viele Anwender kommen deshalb zum Ergebnis, dass der Gesamtaufwand für die Datenerfassung mit OCR-Programmen so aufwändig ist, dass die Neuerfassung dem OCR-Vorgang vorzuziehen ist.

Ich dagegen bin der Meinung, dass eine intelligentere Nachbearbeitung der Daten den Aufwand so verringert, dass die OCR-Verarbeitung absolut konkurrenzfähig ist.

Es geht also darum:

  • die Fehlerquote zu verringern
  • Verarbeitungsabläufe zu optimieren
  • Fehler aufgrund des Kontextes zu korrigieren
  • zweifelhafte Stellen zur manuellen Korrektur zu markieren
  • die Daten für das Zielprogramm optimal aufzubereiten