Es erweist sich oft als relativ schwierig Vorlagen gleichmäßig zu digitalisieren, die sehr alt sind, in unserem Fall bis zu knapp 250 Jahre – denn die seinerzeit existente Drucktechnik vermochte schlicht und einfach noch keine so gleichmäßigen Druckerzeugnisse zu erstellen, wie es heutige Druckereien zu leisten im Stande sind.
Unser Ziel im aktuellen Fall war Ausgaben des Schwäbischen Merkur aus der Zeit von 1785 bis 1942 zu bearbeiten, der Generierung von Digitalisaten und dazu gehöriger „Optical Character Recognition“ (OCR). Die optische Zeichenerkennung, oder Texterkennung, ist eine Technologie, die die Umwandlung unterschiedlicher Dokumente, wie beispielsweise gescannter Papierdokumente, PDF-Dateien oder Digitalbilder in bearbeitbare und durchsuchbare Dateien ermöglicht.
Die Vorlagen unseres Kunden wurden damals in den Schriften Fraktur und Antiqua gesetzt. Sie verfügen zudem über einen recht unregelmäßigen Satzspiegel, was aufgrund des Alters der Drucke nicht wirklich überrascht. Der Satzspiegel rutscht über die Seite, von oben nach unten, links nach rechts, ist mal gerade und mal krumm und schief geraten. Was zur Folge hat, das leider hin und wieder Text eingebunden wurde, den wir dann letztendlich nicht abtasten können und somit leider wertvolle Informationen verloren gehen. Gleichermaßen hat der Bundsteg jeder Seite einen anderen Umfang, was ein Nachjustieren nach sich zieht. Kurz: Manuelle Korrekturen bleiben nicht aus.
Tages-Ordner und getrennte Ausgaben als Herausforderung
Zu den Problempunkten Satzspiegel und Schriften kam noch eine weitere Besonderheit: Die Zeitung verfügt über einen überregionalen Teil (den Schwäbischen Merkur) und eine Regionalausgabe (die Schwäbische Chronik). Diese wurden teils zusammen gebunden in ein Buch, teils aber auch getrennt in zwei Büchern. Losgelöst davon wie die Vorlagen gebunden sind, möchte der Auftraggeber die Digitalisate immer in einem Tagesordner haben, welcher alle Inhalte bündelt, die an diesem Tag erschienen sind.
Da aber bei der Datei-Benennung bestimmte Regeln zu beachten sind, damit diese zur Langzeitarchivierung (LZA) geeignet sind, mussten wir im Zuge des Exports aus unserer Scansoftware „multidotscan“ (mds) einen dem Wunsch entsprechend angepassten Arbeitsablauf entwickeln.
Wir haben dazu den Quellcode der Exporteinstellungen unserer Scansoftware umprogrammiert, um zukünftig solche Sonderwünsche erfüllen zu können. Ziel war es ja, dass der Vorgang so weit wie möglich automatisiert wird und wenig manuelle Anpassungen von Nöten sind. Es ist uns tatsächlich gelungen die manuellen Aufwände zu minimieren – das heißt, die große Gefahr, dass Ordner für Ordner manuell korrigiert werden muss, wurde gebannt.
Statt dessen können nun unsere Scankräfte im Zuge des Exports aus der Software heraus die jeweiligen Ausgaben identifizieren und – immer wiederkehrend – die entsprechenden Präfixe vergeben. Dabei orientieren wir uns an der Vorgabe, jeweils den Buchstaben a und b zur Benennung der Digitalisate zu vergeben (beispielsweise „a00000001.tif“) und dem jeweiligen Tagesordner zuzuführen.
Die Lösung war letztlich gefunden und wir konnten den Auftrag routinemäßig abarbeiten – und, wie immer, versuchen nicht mitzulesen. Auch wenn gerade die seinerzeit aktuellen Wetterbeobachtungen sehr von Interesse wären. Oder eingebundene handschriftliche Notizen. Oder Werbeblätter von ehemals bekannten Stuttgarter Mode- und Kaufhäusern.