Alle digitalisierten Objekte und Dokumente brauchen eine gute Basis, auf der sie katalogisiert, als Datensatz weiterverarbeitet können. Das leisten die Metadaten, die während des Digitalisierungsprozesses erzeugt werden. Der Austausch und die Verarbeitung muss dabei möglichst unabhängig von Systemen und Plattformen sein. Alles das erfüllt am Besten ein Markup mit XML.

Das XML-Format hat sich dabei als Standard durchgesetzt, mit dem Daten zwischen verschiedenen Anwendungen ausgetauscht werden können. Da es auf reinem Text basiert, lassen sich die Dateien ganz einfach mit einem Texteditor öffnen und bearbeiten.

Genutzt wird XML für den Datenaustausch zwischen Computersystemen, der unabhängig von Plattformen und Implementationen erfolgt, vor allem mit Browsern über das Internet. Tatsächlich hat das „World Wide Web Consortium“ diese Auszeichnungssprache bereits zum ersten Mal 1998 veröffentlicht. Eng verbunden damit ist die „Text Encoding Initiative (TEI)“, eine 1987 gegründete Organisation (seit 2000 als „TEI-Konsortium“) und ein gleichnamiges Dokumentenformat zur Kodierung und zum Austausch von Texten – das diese entwickelt hat und auch permanent weiterentwickelt. In der aktuellen Version P5 basiert das Format auf XML. Daher spricht man bei den Metadaten heutzutage oft von „TEI/XML“.

Warum wird XML für Metadaten benutzt?

Neben Austausch und Verarbeitung ist natürlich auch die Bearbeitung und Aufbereitung parallel zu der Erzeugung der Digitalisate entscheidend und sollte möglichst einfach zu realisieren und umzusetzen sein. Diese Anforderung wird mit dem hierarchisch strukturierten XML hervorragend eingelöst – denn es kommt in Form einer Textdatei daher, die sowohl von Menschen wie von Maschinen gelesen werden kann. Weitere Vorteile sind geringe Dateigrößen, eine hohe Sicherheit und eine unkompliziertere Wiederherstellung von Informationen.

Arbeiten mit XML bei der Digitalisierung

XML ist als Sprache sehr abstrakt und aber auch flexibel formuliert. XML lässt sich dabei genau an die Bedürfnisse des Benutzers anpassen und schreibt keine obligatorischen Elemente („Tags“) vor, sondern bietet die Möglichkeit beliebige Tags für den jeweiligen Gebrauch selbst zu definieren. Es gibt also eine klare Syntax, ohne dass eine Semantik vorgegeben ist. So können erweiterte Spezifikationen hinzugefügt und notwendige Varianten für bestimmte Aufgaben angepasst werden.

Solche erweiterten Spezifikationen finden ihren Platz ganz einfach vor den vorhandenen Daten. Der Standard schreibt denn auch vor, dass diese zusammen mit den Daten zugänglich sein müssen. Auf diese Weise besteht nämlich keinerlei Gefahr, dass Daten sich später nicht mehr interpretieren lassen.

Foto: Zhanna