OCR-Erkennung mit Standardprogramm und automatische Textaufbereitung

Die Schritte 1-3 werden mit dem OCR-Programm erledigt:

  1. Den gesamten Text einscannen.
  2. Den Texterkennungsvorgang über alle Seiten laufen lassen.
  3. Den Text mit allen Gestaltungsmerkmalen (Layout wie Druckvorlage, identischer Zeilen- und Seitenumbruch) im HTML-Format ablegen.
  4. hier beginnt die Arbeit mit meinem Textaufbereitungsprogramm:
  5. Einlesen des Textes und Umwandlung der Daten in das Tagged-Format des Corel™ Ventura − Publisher zur internen Weiterverarbeitung.
  6. Automatische Prüfung der Sonderzeichen und anschließende Korrektur (Klammerung, Anführungszeichen, Apostrophe, Gedankenstriche u. ä.) – farbige Markierung erkannter kritischer Fälle.
  7. Einlesen aller Druckzeilen Wort für Wort.
    • Dabei Abgleich aller Wörter mit selbst erstellten Wörterbüchern (generelles Wörterbuch der deutschen Sprache, Fremdwörterbuch, Namenswörterbuch, Abkürzungswörterbuch, Fremdsprachenwörterbücher und Fachwörterbücher sowie einem Verzeichnis verwendeter Zahlenformate). Wird ein Wort nicht gefunden, wird mit Hilfe einer Datenbank früherer Falscherkennungen das Wort so lange verändert und wieder mit den Wörterbüchern abgeglichen, bis das Wort entweder erkannt oder endgültig als nicht erkannt klassifiziert wurde.Bei Erkennung wird das Wort ausgetauscht und markiert.
    • Alle Wörter werden in eine werkspezifische Wörterliste mit der Klassifizierung:
      • bekannt
      • unsicher
      • unbekannt
    • aufgenommen. Außerdem werden in dieser Liste die ersten Vorkommen und die Häufigkeit des Vorkommens festgehalten. Diese Liste kann später nach unterschiedlichen Kriterien sortiert werden und ist die Basis für Wörterbucherweiterungen und Ersetzungslisten.
    • Am Zeilenende wird untersucht, ob das Wort gültig getrennt (gültige Trennungen können aus den Wörterbüchern entnommen werden) wurde, ob es sich um eine verkürzte Zeile oder ein Satzende handelt. Nach diesen und anderen Kriterien (genauer) wird entschieden, ob ein Absatzende vorliegt. Dies wird in der Ausgabedatei entsprechend vermerkt. Die erkannten Absätze werden abwechselnd farbig markiert.
    • Am Seitenende wird geprüft, ob Leerräume und Anzahl der Zeilen die maximal mögliche Zeilenzahl je Seite ergeben. Ist dies nicht der Fall, wird die Seite als kritisch markiert.
  8. Zur Erleichterung des Korrekturvorganges wird die erzeugte Datei in das DTP-Programm Corel™ Ventura −- Publisher eingelesen und eine PDF-Datei als Korrekturvorlage erzeugt. Das erzeugte Layout entspricht weitgehend der Druckvorlage und enthält als Korrekturhilfe die durch das Bearbeitungsprogramm erzeugten farbigen Korrekturhilfen.
  9. Anschließend wird die erhaltene Wörterliste bearbeitet:Die unbekannten Wörter werden überprüft, ob sie
    • bisher unbekannt, aber sonst korrekt sind,
      verifiziert durch Nachschlagewerke.
      • Diese Wörter werden für die Aufnahme in eines der Wörterbücher markiert.
    • bisher unbekannt sind,
      • die erkannte Schreibweise aber mit der Vorlage übereinstimmt:
      • bei offensichtlich falscher Schreibweise wird das Wort farbig markiert
      • andernfalls wird das Wort in das werkspezifische Wörterbuch aufgenommen.
    • die Schreibweise nicht mit der Vorlage übereinstimmt
      • Hier wir das Wort um das richtige Wort ergänzt und als zu Ersetzen markiert.
  10. Die Wörterliste bearbeiten:
    • Wörter, die in die Wörterliste aufgenommen werden sollen, erhalten je nach Zielwörterbuch, unterschiedliche Markierungen.
    • Die Wörter oder Wörterkombinationen, die im Werk ausgetauscht werden sollen, erhalten die Austauschmarkierung und den Ersatzbegriff.
  11. In der eingelesenen Datei werden alle eingegebenen Wörter ausgetauscht.
  12. Zur Überprüfung der korrigierten Datei sollte der Vorgang ab dem 7. Schritt so lange wiederholt werden, bis in der erzeugten Wörterliste kein unbekanntes Wort mehr verzeichnet ist.
  13. Jetzt werden die als kritisch markierten Stellen, Absätze, ggf. Trennungen, Sonderzeichen und kritische Wörter (bestimmte Umlaut- und Akzentkombinationen) deren richtige Verwendung nicht durch Wörterbücher erkannt werden können, manuell geprüft und korrigiert.
  14. Für Sie als Kunde wird noch einmal eine PDF-Datei als Korrekturgrundlage erzeugt.
  15. Jetzt werden durch einen Konvertierungsvorgang alle Bearbeitungsmarkierungen gelöscht und die Datei im Zielformat erzeugt, auf Wunsch komplett vorgetrennt.
  16. Auf Wunsch wird zum Schluss das gewünschte Endprodukt (Druckvorlage, Website, Datenbank oder digitales Werk) erzeugt.

Vorteile dieses Bearbeitungsverfahrens:

  1. Schneller Durchlauf dank standardisiertem Bearbeitungsverfahren.
  2. Vollständige Prüfung aller verwendeten Wörter.
  3. Einheitliche Gestaltung (Abstände, Anführungszeichen, Apostrophe u. ä.).
  4. Laufende Einarbeitung neuer Erkenntnisse durch Erweiterung der Datenbank für Erkennungsfehler, permanente Pflege und Erweiterung der verwendeten Wörterbücher.
  5. Zusätzlich zur gewünschten Zieldatei erhalten Sie:
    • Eine komplette Wörterliste aller verwendeten Wörter mit Erstvorkommen und Häufigkeit.
    • Eine PDF-Datei mit Markierungen aller als kritisch erkannten Stellen und einem fast identischen Layout der Papiervorlage.
    • Auf Wunsch automatisch erzeugte Inhalts- und Stichwortverzeichnisse, Verweise und Fußnoten.
    • Eine nach Ihren Wünschen aufbereitete Gestaltung im benötigten Zielformat.