picturesafe-Wissen (6):  Universell nutzbare XML-Dateien für Information und Dokumentation

picturesafe-Wissen (6):
Universell nutzbare XML-Dateien für Information und Dokumentation

Alle digitalisierten Objekte und Dokumente brauchen eine gute Basis, auf der sie katalogisiert, als Datensatz weiterverarbeitet können. Das leisten die Metadaten, die während des Digitalisierungsprozesses erzeugt werden. Der Austausch und die Verarbeitung muss dabei möglichst unabhängig von Systemen und Plattformen sein. Alles das erfüllt am Besten ein Markup mit XML.

Das XML-Format hat sich dabei als Standard durchgesetzt, mit dem Daten zwischen verschiedenen Anwendungen ausgetauscht werden können. Da es auf reinem Text basiert, lassen sich die Dateien ganz einfach mit einem Texteditor öffnen und bearbeiten.

Genutzt wird XML für den Datenaustausch zwischen Computersystemen, der unabhängig von Plattformen und Implementationen erfolgt, vor allem mit Browsern über das Internet. Tatsächlich hat das „World Wide Web Consortium“ diese Auszeichnungssprache bereits zum ersten Mal 1998 veröffentlicht. Eng verbunden damit ist die „Text Encoding Initiative (TEI)“, eine 1987 gegründete Organisation (seit 2000 als „TEI-Konsortium“) und ein gleichnamiges Dokumentenformat zur Kodierung und zum Austausch von Texten – das diese entwickelt hat und auch permanent weiterentwickelt. In der aktuellen Version P5 basiert das Format auf XML. Daher spricht man bei den Metadaten heutzutage oft von „TEI/XML“.

Warum wird XML für Metadaten benutzt?

Neben Austausch und Verarbeitung ist natürlich auch die Bearbeitung und Aufbereitung parallel zu der Erzeugung der Digitalisate entscheidend und sollte möglichst einfach zu realisieren und umzusetzen sein. Diese Anforderung wird mit dem hierarchisch strukturierten XML hervorragend eingelöst – denn es kommt in Form einer Textdatei daher, die sowohl von Menschen wie von Maschinen gelesen werden kann. Weitere Vorteile sind geringe Dateigrößen, eine hohe Sicherheit und eine unkompliziertere Wiederherstellung von Informationen.

Arbeiten mit XML bei der Digitalisierung

XML ist als Sprache sehr abstrakt und aber auch flexibel formuliert. XML lässt sich dabei genau an die Bedürfnisse des Benutzers anpassen und schreibt keine obligatorischen Elemente („Tags“) vor, sondern bietet die Möglichkeit beliebige Tags für den jeweiligen Gebrauch selbst zu definieren. Es gibt also eine klare Syntax, ohne dass eine Semantik vorgegeben ist. So können erweiterte Spezifikationen hinzugefügt und notwendige Varianten für bestimmte Aufgaben angepasst werden.

Solche erweiterten Spezifikationen finden ihren Platz ganz einfach vor den vorhandenen Daten. Der Standard schreibt denn auch vor, dass diese zusammen mit den Daten zugänglich sein müssen. Auf diese Weise besteht nämlich keinerlei Gefahr, dass Daten sich später nicht mehr interpretieren lassen.

Foto: Zhanna

picturesafe-wissen (5): Digitalisate und digitale Formate – Die Bedeutung von Metadaten

picturesafe-wissen (5):
Digitalisate und digitale Formate – Die Bedeutung von Metadaten

Ziel einer Digitalisierung ist die möglichst originalgetreue Wiedergabe der Vorlagen nach Maßgabe bestimmter (wissenschaftlicher) Erfordernisse. Für alle im Rahmen von Projekten zu digitalisierenden Objekte sind denn auch die Qualitäten so zu wählen, dass Darstellungen, die öffentlich oder halböffentlich zugänglich gemacht werden, gemeinsamen Normen entsprechen und damit in allen Umgebungen nutzbar sind.

Metadaten sollen daher grundsätzlich in einer von der Software unabhängigen und standardkonformen Form bereitzustellen, in aller Regel in einer XML-Codierung (die wir noch einmal detaillierter in einem weiteren Teil unser Reihe „picturesafe-Wissen“ eingehen werden). Metadaten bzw. Meta-Informationen sind strukturierte Daten, die Informationen über andere Informations-Ressourcen enthalten. Es handelt sich also um eine Art Beschreibung der eigentlichen Daten und ist besonders dann erforderlich, wenn es gilt größere Datenmengen zu verwalten. Ein ausgesprochenes Merkmal dieser Metadaten ist daher oft, dass sie maschinell lesbar und auswertbar sind. Die verschiedenen Metadatentypen werden für verschiedene Szenarien benötigt; insbesondere für den Transfer der Metadaten, für die digitale Archivierung und für die digitale Bestanderhaltung.

Standards und Praxis-Beispiele

Es gibt mehrere Standards für die Vergabe von Metadaten. Sie hängen in erster Linie von der Art der Daten und ihrer Verwendung ab. Im wissenschaftlich-bibliothekarischen Bereich werden die Metadaten nach dem Regelwerk RAK-WB (Regeln für die alphabetische Katalogisierung in wissenschaftlichen Bibliotheken) vergeben. Für Webseiten gibt es die Regeln der Dublin Core Metadata Initiative. Daneben gibt es noch fachspezischen Regelwerke, wie die Content Standards for Digital Geospatial Metadata für die Geowissenschaften oder fachliche Regelwerke für Metadaten der IEEE (Institute of Electrical and Electronic Engineers).

Eingebetteten Metadaten (auch als „Tags“ bezeichnet) liegen wie extern vorgehaltene Metadaten verschiedene Standards zugrunde. In den letzten Jahren wurden dazu erfolgreich ISO-Normungen im Bereich der eingebetteten Metadaten definiert. Unternehmen, die ein Dokumenten-Managementsystem verwenden, benutzen allerdings oftmals auch selbst definierte Metadaten, die sich aus der Art der Dokumente und den Prozessen ergeben. Bei einem Maschinenbau-Unternehmen sind zum Beispiel oftmals Teilenummer, Seriennummer, Zeichnungsnummern oder Anlagennummer wichtig.

Um es zu verdeutlichen, hier zwei kurze Beispiele für einen typischen Metadaten-Satz:

Metadaten für ein Buch: 

  • Autor,
  • Titel,
  • Verlag,
  • Erscheinungsjahr,
  • Anzahl der Seiten,
  • ISB Nummer.

Bei einer technischen Zeichnung:

  • Name des Konstrukteurs,
  • Bauteilnummer,
  • Zeichnungsnummer,
  • Versionsnummer,
  • Datum.

Foto: domoskanonos

picturesafe-Wissen (4): OCR und Texterkennung als Spezial-Disziplin beim Digitalisieren

picturesafe-Wissen (4):
OCR und Texterkennung als Spezial-Disziplin beim Digitalisieren

Ganz generell wird bei der „OCR“ („Online Character Recognition“) – der Texterkennung von Dokumenten – das Originalbild in verschiedenen Zwischenschritten vorverarbeitet, bevor die Software überhaupt über den eigentlichen Inhalt des Textes „nachdenkt“. Dabei misst sie die Bilder der Originalbuchstaben aus, dann ordnet sie diese Messungen nach Eigenschaften, um dann den dazu passenden Buchstaben zu finden. Doch wie geht das genau und warum ist es so wichtig, wenn es um Digitalisierung-Prozesse geht?

Texterkennung ist deshalb notwendig, weil optische Eingabegeräte (Scanner oder Digitalkameras) als Ergebnis ausschließlich Rastergrafiken liefern können,  also in Zeilen und Spalten angeordnete Punkte unterschiedlicher Färbung (den Pixeln). Der Prozess wird sehr gut und präzise in der Wikipedia beschrieben: „Automatische Texterkennung und OCR werden im deutschen Sprachraum oft als Synonym verwendet. In technischer Hinsicht bezieht sich OCR jedoch nur auf den Teilbereich der Mustervergleiche von separierten Bildteilen als Kandidaten zur Erkennung von Einzelzeichen. Diesem OCR-Prozess geht eine globale Strukturerkennung voraus, in der zuerst Textblöcke von graphischen Elementen unterschieden, die Zeilenstrukturen erkannt und schließlich Einzelzeichen separiert werden. Bei der Entscheidung, welches Zeichen vorliegt, kann über weitere Algorithmen ein sprachlicher Kontext berücksichtigt werden.“

Das Programm vergleicht also im Wesentlichen die eingescannten Buchstaben mit den Mustern. Wenn sie sich zu etwa 99% ähneln, entscheidet der Algorithmus, dass es wahrscheinlich dieser oder jener Buchstabe oder Zeichen sein muss. Hierbei ist er sehr präzise, denn er kann viele Muster in kurzer Zeit vergleichen. Moderne Texterkennung umfasst denn auch mehr als reine OCR, also die Übersetzung einzelner Schriftzeichen. Zusätzlich werden Methoden der Kontextanalyse, Intelligent Character Recognition (ICR), hinzugezogen, mit denen die eigentlichen OCR-Ergebnisse korrigiert werden können. So kann etwa ein Zeichen, das eigentlich als „8“ erkannt wurde, zu einem „B“ korrigiert werden, wenn es innerhalb eines Wortes steht.

Mit HWR / HTR auch Handschriften erkennen

Für viele der Dokumente, die bei picturesafe verarbeitet werden, ist jedoch noch eine zweite Form ganz entscheidend:  Dabei müssen Handschriften (oft sehr alte, historische Vorlagen) erkannt und verarbeitet werden. Die Handschrifterkennung (HWR), auch bekannt als „Handwritten Text Recognition“ (HTR), ist die Fähigkeit des angeschlossenen Computers, verständliche handschriftliche Eingaben aus Quellen wie zum Beispiel Papierdokumenten und Fotos zu empfangen und den Scan zu interpretieren. Das HWR übernimmt die Formatierung, führt die korrekte Segmentierung in Zeichen durch und findet die plausibelsten Wörter.

Warum gibt man sich soviel Mühe damit, Dokumente, auch historische, handgeschriebene „lesbar“ zu machen? Wenn es darum geht komplette Texte auszuwerten und die relevanten Stichworte darin als Suchbegriffe zu hinterlegen, ist eine automatisierte Schrifterkennnung im Vergleich zur manuellen Datenerfassung unschlagbar. Wenn nach Stichworten innerhalb größerer Texte gesucht wird, liefert diese Texterkennung vollkommen hinreichende Ergebnisse – denn zu 95% wird die sie direkte Treffer liefern und an die Textfundstelle innerhalb des Dokumentes „springen“. Diese Prozentzahlen zeigen, dass eine wie immer geartete Texterkennung unter Umständen einer manuellen Prüfung bedürfen. Für den Auftraggeber mögen allerdings auch 95% hinreichend sein, das wäre dann Teil der schriftlichen Auftragserteilung. Es kommt letztlich auf die Nutzung und die dafür nötige Genauigkeit / Vollständigkeit an.

Für Archive und Bibliotheken sind mit OCR und HWR bearbeitete historische Unterlagen unter Umständen sehr wichtig, da deren Aufgaben und von außen auf sie zukommende Anforderungen sich im 21. Jahrhundert deutlich verändern. Beispielsweise werden Dokumente öffentlich zugänglich gemacht (meist per Internet), um etwa die Forschung zu unterstützen. Eine Volltext-Suche ist da eigentlich elementar.

Foto: Olya

picturesafe-Wissen (3): Bestandschonendes Scannen – jeder Auftrag ist auch ein Kompromiss

picturesafe-Wissen (3):
Bestandschonendes Scannen – jeder Auftrag ist auch ein Kompromiss

Bei der Digitalisierung geht es heutzutage in aller Regel um schützenswertes Kulturgut – entsprechende Fachkenntnisse sind daher elementar. Ohne den Einsatz von ausschließlich geschultem und vor allem langjährig erfahrenem Scan-Personal, können solche Projekte denn auch schnell scheitern.

Digitalisierung wird bei picturesafe grundsätzlich als elementarer Bestandteil eines Bestandmanagements verstanden. Die maximale Schonung steht denn auch klar im Vordergrund und somit der Schutz der Originale immer an erste Stelle. Grundsätzlich sollte in der Tat der Originalerhalt Priorität vor einer möglichen Digitalisierung haben. Genau deswegen ist tatsächlich fast jeder Auftrag ein Kompromiss.

Aus diesem Grund wird bei picturesafe zu jedem Projekt (unabhängig von der Auftragsgröße) ein dedizierter Projektleiter oder Projektleiterin benannt, die mit den verantwortlichen Entscheidern beim Auftraggeber etwaige Fragestellungen klären. Insgesamt ist es tatsächlich (egal ob Karteikarten, Zeitungen, Zeitschriften, Bücher, Akten oder Urkunden – egal welchen Alters) immer ein Abwägen zwischen dem Aufwand und einem zu erwartenden Digitalisierungs-/Scan-Ergebnis.

Natürlich geht es dabei ohne Frage auch real um Kosten, denn nicht jedes Projekt ist auch gleich mit einem üppigen Budget ausgestattet. Ein gutes Beispiel, bei dem man über Kompromisse sprechen muss, ist etwa die Relation von Auftrag und Ertrag bei der Schrifterkennung. Gerade bei alten Handschriften können die letzten drei bis fünf Prozent unter Umständen zu einem unendlichen Aufwand führen. Auch muss man manchmal überlegen, wie umfangreich man die Anreicherung durch Metadaten gestaltet –  einfach oder äußerst umfangreich?

Vorgaben zur Planung und Umsetzung

Vor diesem Hintergrund sind bei einem Digitalisierungs-Auftrag bei picturesafe folgende Prämissen wesentlich und gehören zu einer guten Planung und Umsetzung:

  • Einsatz ausschließlich aktueller, einwandfrei gewarteter und kalibrierter Aufsichtsscanner mit hochauflösenden Kameras renommierter Hersteller – stets ausgestattet mit hervorragenden Wartungs- und Supportverträgen
  • Steuerung der Scanner durch renommierte und jahrelang erprobter Software jeweils in der aktuellen Version
  • Einsatz von Testmiren und Farbreferenzen zu regelmäßige Kalibrierung der Scanner
  • Reflektionsfreie, kalte LED-Ausleuchtung der Scanfläche, inklusive Echtzeitvorschau
  • Zertifizierung nach Metamorfoze, FADGI und ISO 19264-1:2017
  • Aufnahmeflächen mit motorischen Buchwippen, inklusive variabler Buchrückenfreistellung
  • Einsatz gefederter Glasplatten nach Maßgabe des Auftraggebers
  • Bei Bedarf Nutzung „Münchner Finger“ zur Herstellung der richtigen Planlage
  • Einsatz von Buchsofas („Norfolk Book Sofa“ – ein Baumwollbezug mit Styroporkugel-Füllung – zur Nutzung in Museen freigegeben), sollte die physische Struktur einer Akte, die Beschaffenheit von Bindung bzw. Heftung – aber auch eventuell auftretende Schadbilder – eine Digitalisierung mit einem verringerten Öffnungswinkel (80-110°) erfordern
  • Die Digitalisierung wird nach Vorgabe des Auftraggebers und dessen Parametern durchgeführt. Eine obligatorische Beratung durch den oder die Projektleiter geht dem voraus und soll mögliche, notwendige Kompromisse vorab klären
  • Generell wird ohne Einsatz von Bildverbesserungs- oder Stiching-Funktionen digitalisiert  (es sei denn, ausdrücklich gewünscht)
  • Durchgängiges Qualitätsmanagement und natürlich auch Datenschutz nach DSGVO-Vorgaben

Foto: felix

picturesafe-Wissen (2): Wie müssen Kulturgut und Dokumente während der Digitalisierung gelagert werden?

picturesafe-Wissen (2):
Wie müssen Kulturgut und Dokumente während der Digitalisierung gelagert werden?

Die Anforderungen für den Transport von Digitalisierungs-Objekten fließen manchmal direkt über in die Art wie diese gelagert werden müssen, während sie in der Bearbeitung sind. Teilweise sind den Kunden die zu digitalisierenden Gegenstände oder Dokumente so wichtig, dass sie sogar lange Transporte vermeiden (zum Beispiel unter drei Stunden Fahrzeit) und diese auch zu fest vereinbarten Terminen zurück haben wollen.

Doch natürlich müssen letztlich die Kulturgüter jeder Art für eine gewisse Zeit bei einem Dienstleister wie picturesafe gelagert werden. Einen typischen Magazinraum sollte man etwa so planen: Fußböden, Wände und Regale sollten glatte Oberflächen aufweisen, die so schon einmal grundsätzlich ein Anhaften von Staub und Schmutz erschweren und leicht zu reinigen sind.

Die Möblierung muss unbrennbar sein,  Regale am besten aus einbrennlackiertem Stahlblech. Regale, Planschränke usw. sollten mit einem ausreichendem Abstand von mindestens 20 cm von Außenwänden aufgestellt werden. Der Mindestabstand des Archivgutes von Boden und Decke beträgt 15 cm. Und, im Magazin soll kein dauerhafter Arbeitsplatz eingerichtet sein, auch dürfen solche Räume nicht als Lagerraum für archivfremdes Material benutzt werden.

Die Klimawerte in den Betriebsräumen müssen sich im Rahmen der DIN 67700 („Bau von Bibliotheken und Archiven –Anforderungen und Empfehlungen für die Planung“) bewegen. Daher dürfen die Archivalien bei den einzelnen Arbeitsprozessen (zum Beispiel Digitalisierung, Verfilmung und Entsäuerung) die Räume des Dienstleisters auch nicht verlassen.

Lagerung und Verpackung während der Digitalisierung

Über den eigentlichen Raum und dessen Einrichtung hinaus, braucht man natürlich Verpackungsmaterial und Aufbewahrungsmöglichkeiten. Auch dabei gilt zu beachten, dass Schädigungen durch äußere Einflüsse (hohe und niedrige Temperaturen, hohe Luftfeuchtigkeit, Sonnenlicht, eindringendes Wasser etc.) weitgehend ausgeschlossen werden. Ein darüber hinaus nicht so offensichtlicher, aber wesentlicher Punkt ist der Schutz vor Befall durch Schädlinge und/oder Schimmel. Dies gilt für die zu digitalisierenden Güter wie die Verpackungsmaterialien.

Hier werden generell besondere Maßnahmen ergriffen: Die angelieferten Archivkartons werden auf Kunststoffpaletten beziehungsweise auf Aktenwagen 20 cm von den Wänden entfernt aufgestellt und der Boden um die Aktenwagen wird mit doppelseitig stark klebendem Klebeband vollständig umklebt. Zusätzlich werden unmittelbar neben den angelieferten Kartonagen Monitoring-Klebefallen aufgestellt. Sollten in den Klebefallen oder auf dem Klebeband Schadinsekten festgestellt werden, so wird dies in einem Extra-Protokoll vermerkt. Die Unterlagen müssen zudem bereits vor Beginn des Digitalisierungsprozesses auf eine eventuelle Kontamination durch Schadinsekten geprüft werden.

Auch beim Thema Klimatisierung werden in den Dienstleistungsvereinbarungen oft sehr präzise Vorgaben gemacht. So sollte in der Aufbewahrungszeit während der Bearbeitung die Vorgaben der DIN 11799 (2017) zur Lagerung von Archivgut eingehalten werden. Erforderlich sind dazu 16 bis 23° Celsius bei 30 bis 50 Prozent relative Luftfeuchte. Schwankungen dürfen dabei innerhalb 24 Stunden nicht mehr als 1° Celsius beziehungsweise 1 % relative Luftfeuchte betragen.

Was passiert, wenn Schäden entstehen?

Zum Thema Lagerung gehört auch eine mögliche Haftung, sollten doch irgendwie geartete Schäden an den wertvollen Kulturgütern und Digitalisierungs-Vorlagen entstehen. Gefordert sind entsprechende Versicherungen des Dienstleisters, die oft auch Teil der vertraglichen Vereinbarungen werden. Für den Fall von Transport- und allen sonstigen Schäden am Archivgut muss der Auftragnehmer daher mindestens über eine branchenübliche Betriebs-Haftpflichtversicherung verfügen. Eine solche Versicherung ist mindestens 6-stellig, kann aber je nach Alter und Wert der zu digitalisierenden Gegenstände auch deutlich höher liegen. picturesafe verfügt hier entsprechend über flexible Versicherungsverträge mit Grunddeckungen, die projektindividuell angepasst werden können.

Foto: klyaksun