OCR-Optical Character Recognation – Optisches Texteinlesen

OCR? – Das geht völlig problemlos!

Das machen wir mit dem zum Scanner mitgelieferten OCR-Programm schnell und preiswert selber.

OCR? – Bloß nicht!

Ich erkenne jeden eingelesenen Text auf den ersten Blick.

Das ist doch alles viel zu fehleranfällig.

Diese zwei, doch sehr gegensätzlichen Aussagen, enthalten beide einen wahren Kern. Ist dabei ein Dienstleistungsangebot zum optischen Texteinlesen nicht ein Eulen-nach-Athen-tragen-Angebot? Ich möchte Ihnen an dieser Stelle allgemeine Hinweise zum optischen Texteinlesen, den damit verbundenen Problemen, Lösungsansätzen und meinen ganz persönlichen Weg erläutern. Die dann folgenden Ausführungen zur automatische Textaufbereitung, Datenkonvertierung und Database-Publishing sollen Ihnen zeigen, dass die Arbeit mit dem Texteinlesen nicht getan ist.

OCR – völlig problemlos?

Richtig ist sicherlich, dass die heute gelieferten OCR-Programme ausgereift sind und qualitativ einen hohen Standard haben. Tests in Fachzeitschriften zeigen, dass die Fehlerrate sehr gering ist. Es werden einige Seiten Text eingelesen und oft finden sich nur ein oder zwei Fehler.  Zwei Fehler, auf, sagen wir mal, zehn Textseiten mit ca. 1.500 Zeichen bedeuten aber immerhin eine Fehlerquote von 0,133 %, ein Fehler alle fünf Seiten und bei einem Roman von fünfhundert Seiten 100 Fehler.

Und dies wäre schon eine optimistische Annahme, und diese Aussage gilt für eine gute Vorlage, d. h.:

  • sauberes, nicht durchscheinendes Papier
  • wenig Verschmutzungen
  • einheitliche Druckqualität
  • einheitliche Schriftlaufweite
  • saubere Absatztrennung

Folgt daraus

OCR? – bloß nicht!

Ganz sicher nicht! Wenn die Vorlage auch nur halbwegs akzeptabel ist, kann durch intelligente Nacharbeit ein fehlerhaft eingelesener Text so effektiv aufbereitet werden, dass sich dieser Weg jederzeit mit der preiswertesten Neuerfassung messen lassen kann. OCR kann also nur der erste Schritt sein. Danach muss eine möglichst sorgfältige Bearbeitung erfolgen. Es muss darum gehen, Fehler beim Einlesen möglichst zu vermeiden und anschließend die doch noch vorhandenen Fehler effektiv und kostengünstig zu beseitigen. Dies kann weitgehend manuell durch die im OCR-Programm angebotenen Werkzeuge geschehen, oder auf dem fast automatischen Weg mit Hilfe meines Programmes zur Textkorrektur und Textaufbereitung.

Wann ist der Einsatz von OCR sinnvoll?

Diese Frage ist eigentlich sehr einfach zu beantworten:OCR lohnt sich immer dann, wenn diese Lösung bei vergleichbarer Qualität preiswerter oder vielleicht auch nur schneller ist. Weiter sollten Sie einen eventuellen Zusatznutzen in den Vergleich mit einbeziehen. Als Vergleichsbasis bietet sich also zuerst einmal der Preis für eine Neuerfassung an. Da es sich hier um ein Dienstleistungsangebot handelt, sollten Sie dies bei der Preisbildung berücksichtigen. Hieraus ergibt sich, dass eine gewisse Mindestmenge zur Verarbeitung vorliegen sollte. Dabei sollte sich der Begriff Menge nicht nur auf die Anzahl der Zeichen beziehen.

OCR und automatische Textaufbereitung erweisen sich oft dann als besonders konkurrenzfähig, wenn

  • eine große Textmenge zur Verarbeitung ansteht
  • eine hohe Komplexität des Textes (umfangreiche Tabellen, komplizierte Gliederungen, Inhaltsverzeichnisse, Stichwortverzeichnisse, Fußnotenverarbeitung und andere strukturierte Daten ) vorliegt
  • oder wenn ein hoher Wiederholungsfaktor ähnlicher Texte (thematisch, gestaltet, strukturiert) zur Verarbeitung ansteht

OCR sollte immer dann in Erwägung gezogen werden, wenn

  • die Neuauflage eines Buches ansteht und der Stehsatz nicht mehr zur Verfügung steht.
  • Sie gedruckte Vorlagen einer digitalen Verarbeitung (Online, Datenträger und Datenbanken) zuführen und dabei auf die Inhalte zugreifen wollen.
  • Sie vorliegende Dateien nicht direkt weiterverarbeiten können, diese Dateien aber druckbar sind.
  • Ihnen Textdaten nur als Bilddateien zur Verfügung stehen.
  • Sie ungeschützt vorliegende PDF-Dateien wieder weiterverarbeiten wollen.

Die OCR-Verarbeitung eines Textes erfolgt in mehreren Verarbeitungsschritten.

Lesen Sie bitte hierzu:

Die Anwendung eines Standardprogrammes zur OCR-Verarbeitung.

Die kombinierte Verarbeitung von Standardprogramm und automatischer Textaufbereitung.