Häufig sind Texte aufgrund ihrer Herkunft ohne jede Textaufbereitung. Die Texte stammen oft aus Programmen, die lediglich einen reinen Textexport erlauben, mit OCR-Programmen eingelesen, oder ohne jegliche Strukturierung und Gestaltung erfasst wurden.
Textaufbereitung bedeutet hier, dass Texte strukturiert und je nach Art der Weiterverarbeitung gestaltet werden sollen. Dieser Vorgang kann oft zu einem erheblichen Teil automatisiert werden. Hierzu gehören:
- Seitenerkennung
- Absatzerkennung
- Erkennung von verschiedenen Überschriftebenen
- Erkennung von Gliederungsebenen
- Erkennung von Tabellenelementen
- Erkennung von weiteren Elementen wie Namen, Zahlenformaten und sonstigen klassifizierten Wörtern, die aus Wörterbüchern stammen.
- Die standardisierte Verwendung von Sonderzeichen und Abständen:
Bindestriche, Gedankenstriche, Anführungszeichen, Apostrophe und Klammer. - Die einheitliche Schreibweise von Abkürzungen.
Die Basis der automatischen Textaufbereitung können dabei sowohl gestalterische Elemente wie auch inhaltliche (kontextabhängige) Elemente sein.
Zielsetzung dieser Textaufbereitung ist die Weiterverarbeitung dieser Daten zum Beispiel
- zu Druckwerken (Aufbereitung für die Druckvorstufe),
- zu digitalen Publikationen und
- zur Weiterverarbeitung in Datenbanken.
Lesen Sie hierzu bitte auch: Crossmedia Publishing und Database-Publishing.