Thomas M. Ruthemann |

Es gibt noch viel zu digitalisieren!

von Thomas M. Ruthemann | Okt. 7, 2021

Wie bei der picturesafe management GmbH alles anfing

Der zunehmende Bedarf von Unternehmen, Verlagen, Rundfunkanstalten aber auch Archiven, Bibliotheken, Museen und Behörden und öffentlichen Einrichtungen an der Transformation analoger in digitale Inhalte zeigte sich Anfang der 2000’er Jahre immer deutlicher. Dabei ging (und geht es) vor allem darum eine orts- und zeitunabhängige Verfügbarkeit und Bestandserhaltung zu realisieren. Digitalisierung wird zum Muss, das wurde und ist offensichtlich.

Die Initiative von Andreas Kuhn (dem heutigen CEO und Geschäftsführer) zum Aufbau neuer Geschäftsfelder, zusammen mit seinerzeit mehreren Gesellschaftern aus dem Medien- und IT-Dienstleisterumfeld, führte dann 2007 dazu picturesafe zu gründen. Der definierte Geschäftszweck war „die Erbringung von Management und Digitalisierungs-Dienstleistungen“ und die ersten großen Projekte ließen auch nicht auf sich warten. Drei sollen hier noch einmal näher betrachtet werden. Ab dieser Zeit war auch Thomas Necke dabei, der noch heute als Prokurist und Chief Operating Officer (COO) bei picturesafe die Organisation und das Tagesgeschäft im Griff hat.

Beim Burda Projekt ging es ab 2009 um die Aufbereitung von Presseartikeln von hauseigenen und externen Publikationen für einen hauseigenen „Contentpool“:

Datenbeschaffung von Presseartikeln unterschiedlicher Verlage
Datenkonvertierung von Bild-Daten zu Text-Dateien von hauseigenden Publikationen
Halbautomatisiertes Auswahllektorat nach Vorgaben des Kunden bei externen Publikationen
Datenveredelung von hauseigenen und externen Zeitungen/ Zeitschriften, d.h. inhaltliche Erschließung von Inhalten durch ein eigenes Text-Mining-System. Dabei wurden Texte vollautomatisch mit Kategorien (nach Burda-Thesaurus), Entitäten und Formalfacetten angereichert.
Qualitätssicherung der Datenkonvertierung und der inhaltlichen Erschließung von Artikeln durch geschultes Personal.
Ein selbst entwickeltes Monitoring-System unterstützte dabei die Organisation der Kontrolle aller Workflows.

Ebenfalls gleich ein großes Projekt – und mit dem Burda-Projekt im Rücken –, ging es beim zweiten Projekt (teilweise parallel) des Kunden ZDF um Scandienstleistungen für die Dokumentation von Presseartikeln in Zeitungen und Zeitschriften:

Entwicklung eines webbasierten Bestellsystems mit integrierter Statusabfrage
Scandienstleistung von regionalen, überregionalen und internationalen Printpublikationen (Tages-, Wochenzeitungen, Zeitschriften/Magazine)
Artikelerkennung auf Basis der Bestellungen des Auftraggebers
Texterkennung und Konvertierung der Artikel-Daten in Textformat (ASCII)
Weitergabe von Formalfacetten und Sachgebietskürzel in der Textdatei
Verknüpfung von PDF/A, Textdatei und ausgewählten Grafik-Dateien
Qualitätssicherung der Datenkonvertierung und der inhaltlichen Erschließung von Artikeln durch geschultes Personal
Ein selbst entwickeltes Monitoring-System zur Kontrolle aller Workflows
Export-Matrix mit vollautomatisierten Workflows und Daten-Transfer auf FTP-Server

Ein weitere Projekt mit beträchtlichem Umfang aus diesen ersten Jahren, wurde für die Württembergische Landesbibliothek realisiert. Dazu wurden eine halbe Million Seiten von Zeitungsbeständen des „Neues Tagblatt / Stuttgarter Neues Tagblatt“ (1874-1943) digitalisiert und dabei bestandsschonend gescannt.

Aus den genannten drei Projekten bildete sich der Grundstock und die Basis für das umfangreiche Leistungsspektrum der picturesafe management GmbH, wie sie heute tagtäglich arbeitet. CEO Andreas Kuhn fasst es so zusammen: „Den Namen picturesafe management GmbH haben wir seinerzeit ganz bewusst gewählt. Die professionelle und bestandsschonende Digitalisierung sowie Handhabung bedeutender Bestände unserer Kunden stehen seit Gründung im Mittelpunkt unserer Aktivitäten. Wir freuen uns auf die anstehenden Herausforderungen. Es gibt noch viel zu digitalisieren!“.

Fotos: picturesafe management GmbH

picturesafe-Wissen (6):
Universell nutzbare XML-Dateien für Information und Dokumentation

von Thomas M. Ruthemann | Aug. 23, 2021

Alle digitalisierten Objekte und Dokumente brauchen eine gute Basis, auf der sie katalogisiert, als Datensatz weiterverarbeitet können. Das leisten die Metadaten, die während des Digitalisierungsprozesses erzeugt werden. Der Austausch und die Verarbeitung muss dabei möglichst unabhängig von Systemen und Plattformen sein. Alles das erfüllt am Besten ein Markup mit XML.

Das XML-Format hat sich dabei als Standard durchgesetzt, mit dem Daten zwischen verschiedenen Anwendungen ausgetauscht werden können. Da es auf reinem Text basiert, lassen sich die Dateien ganz einfach mit einem Texteditor öffnen und bearbeiten.

Genutzt wird XML für den Datenaustausch zwischen Computersystemen, der unabhängig von Plattformen und Implementationen erfolgt, vor allem mit Browsern über das Internet. Tatsächlich hat das „World Wide Web Consortium“ diese Auszeichnungssprache bereits zum ersten Mal 1998 veröffentlicht. Eng verbunden damit ist die „Text Encoding Initiative (TEI)“, eine 1987 gegründete Organisation (seit 2000 als „TEI-Konsortium“) und ein gleichnamiges Dokumentenformat zur Kodierung und zum Austausch von Texten – das diese entwickelt hat und auch permanent weiterentwickelt. In der aktuellen Version P5 basiert das Format auf XML. Daher spricht man bei den Metadaten heutzutage oft von „TEI/XML“.

Warum wird XML für Metadaten benutzt?

Neben Austausch und Verarbeitung ist natürlich auch die Bearbeitung und Aufbereitung parallel zu der Erzeugung der Digitalisate entscheidend und sollte möglichst einfach zu realisieren und umzusetzen sein. Diese Anforderung wird mit dem hierarchisch strukturierten XML hervorragend eingelöst – denn es kommt in Form einer Textdatei daher, die sowohl von Menschen wie von Maschinen gelesen werden kann. Weitere Vorteile sind geringe Dateigrößen, eine hohe Sicherheit und eine unkompliziertere Wiederherstellung von Informationen.

Arbeiten mit XML bei der Digitalisierung

XML ist als Sprache sehr abstrakt und aber auch flexibel formuliert. XML lässt sich dabei genau an die Bedürfnisse des Benutzers anpassen und schreibt keine obligatorischen Elemente („Tags“) vor, sondern bietet die Möglichkeit beliebige Tags für den jeweiligen Gebrauch selbst zu definieren. Es gibt also eine klare Syntax, ohne dass eine Semantik vorgegeben ist. So können erweiterte Spezifikationen hinzugefügt und notwendige Varianten für bestimmte Aufgaben angepasst werden.

Solche erweiterten Spezifikationen finden ihren Platz ganz einfach vor den vorhandenen Daten. Der Standard schreibt denn auch vor, dass diese zusammen mit den Daten zugänglich sein müssen. Auf diese Weise besteht nämlich keinerlei Gefahr, dass Daten sich später nicht mehr interpretieren lassen.

Foto: Zhanna

picturesafe-wissen (5):
Digitalisate und digitale Formate – Die Bedeutung von Metadaten

von Thomas M. Ruthemann | Juli 13, 2021

Ziel einer Digitalisierung ist die möglichst originalgetreue Wiedergabe der Vorlagen nach Maßgabe bestimmter (wissenschaftlicher) Erfordernisse. Für alle im Rahmen von Projekten zu digitalisierenden Objekte sind denn auch die Qualitäten so zu wählen, dass Darstellungen, die öffentlich oder halböffentlich zugänglich gemacht werden, gemeinsamen Normen entsprechen und damit in allen Umgebungen nutzbar sind.

Metadaten sollen daher grundsätzlich in einer von der Software unabhängigen und standardkonformen Form bereitzustellen, in aller Regel in einer XML-Codierung (die wir noch einmal detaillierter in einem weiteren Teil unser Reihe „picturesafe-Wissen“ eingehen werden). Metadaten bzw. Meta-Informationen sind strukturierte Daten, die Informationen über andere Informations-Ressourcen enthalten. Es handelt sich also um eine Art Beschreibung der eigentlichen Daten und ist besonders dann erforderlich, wenn es gilt größere Datenmengen zu verwalten. Ein ausgesprochenes Merkmal dieser Metadaten ist daher oft, dass sie maschinell lesbar und auswertbar sind. Die verschiedenen Metadatentypen werden für verschiedene Szenarien benötigt; insbesondere für den Transfer der Metadaten, für die digitale Archivierung und für die digitale Bestanderhaltung.

Standards und Praxis-Beispiele

Es gibt mehrere Standards für die Vergabe von Metadaten. Sie hängen in erster Linie von der Art der Daten und ihrer Verwendung ab. Im wissenschaftlich-bibliothekarischen Bereich werden die Metadaten nach dem Regelwerk RAK-WB (Regeln für die alphabetische Katalogisierung in wissenschaftlichen Bibliotheken) vergeben. Für Webseiten gibt es die Regeln der Dublin Core Metadata Initiative. Daneben gibt es noch fachspezischen Regelwerke, wie die Content Standards for Digital Geospatial Metadata für die Geowissenschaften oder fachliche Regelwerke für Metadaten der IEEE (Institute of Electrical and Electronic Engineers).

Eingebetteten Metadaten (auch als „Tags“ bezeichnet) liegen wie extern vorgehaltene Metadaten verschiedene Standards zugrunde. In den letzten Jahren wurden dazu erfolgreich ISO-Normungen im Bereich der eingebetteten Metadaten definiert. Unternehmen, die ein Dokumenten-Managementsystem verwenden, benutzen allerdings oftmals auch selbst definierte Metadaten, die sich aus der Art der Dokumente und den Prozessen ergeben. Bei einem Maschinenbau-Unternehmen sind zum Beispiel oftmals Teilenummer, Seriennummer, Zeichnungsnummern oder Anlagennummer wichtig.

Um es zu verdeutlichen, hier zwei kurze Beispiele für einen typischen Metadaten-Satz:

Metadaten für ein Buch:

Autor,
Titel,
Verlag,
Erscheinungsjahr,
Anzahl der Seiten,
ISB Nummer.

Bei einer technischen Zeichnung:

Name des Konstrukteurs,
Bauteilnummer,
Zeichnungsnummer,
Versionsnummer,
Datum.

Foto: domoskanonos

picturesafe-Wissen (4):
OCR und Texterkennung als Spezial-Disziplin beim Digitalisieren

von Thomas M. Ruthemann | Juni 11, 2021

Ganz generell wird bei der „OCR“ („Online Character Recognition“) – der Texterkennung von Dokumenten – das Originalbild in verschiedenen Zwischenschritten vorverarbeitet, bevor die Software überhaupt über den eigentlichen Inhalt des Textes „nachdenkt“. Dabei misst sie die Bilder der Originalbuchstaben aus, dann ordnet sie diese Messungen nach Eigenschaften, um dann den dazu passenden Buchstaben zu finden. Doch wie geht das genau und warum ist es so wichtig, wenn es um Digitalisierung-Prozesse geht?

Texterkennung ist deshalb notwendig, weil optische Eingabegeräte (Scanner oder Digitalkameras) als Ergebnis ausschließlich Rastergrafiken liefern können, also in Zeilen und Spalten angeordnete Punkte unterschiedlicher Färbung (den Pixeln). Der Prozess wird sehr gut und präzise in der Wikipedia beschrieben: „Automatische Texterkennung und OCR werden im deutschen Sprachraum oft als Synonym verwendet. In technischer Hinsicht bezieht sich OCR jedoch nur auf den Teilbereich der Mustervergleiche von separierten Bildteilen als Kandidaten zur Erkennung von Einzelzeichen. Diesem OCR-Prozess geht eine globale Strukturerkennung voraus, in der zuerst Textblöcke von graphischen Elementen unterschieden, die Zeilenstrukturen erkannt und schließlich Einzelzeichen separiert werden. Bei der Entscheidung, welches Zeichen vorliegt, kann über weitere Algorithmen ein sprachlicher Kontext berücksichtigt werden.“

Das Programm vergleicht also im Wesentlichen die eingescannten Buchstaben mit den Mustern. Wenn sie sich zu etwa 99% ähneln, entscheidet der Algorithmus, dass es wahrscheinlich dieser oder jener Buchstabe oder Zeichen sein muss. Hierbei ist er sehr präzise, denn er kann viele Muster in kurzer Zeit vergleichen. Moderne Texterkennung umfasst denn auch mehr als reine OCR, also die Übersetzung einzelner Schriftzeichen. Zusätzlich werden Methoden der Kontextanalyse, Intelligent Character Recognition (ICR), hinzugezogen, mit denen die eigentlichen OCR-Ergebnisse korrigiert werden können. So kann etwa ein Zeichen, das eigentlich als „8“ erkannt wurde, zu einem „B“ korrigiert werden, wenn es innerhalb eines Wortes steht.

Mit HWR / HTR auch Handschriften erkennen

Für viele der Dokumente, die bei picturesafe verarbeitet werden, ist jedoch noch eine zweite Form ganz entscheidend: Dabei müssen Handschriften (oft sehr alte, historische Vorlagen) erkannt und verarbeitet werden. Die Handschrifterkennung (HWR), auch bekannt als „Handwritten Text Recognition“ (HTR), ist die Fähigkeit des angeschlossenen Computers, verständliche handschriftliche Eingaben aus Quellen wie zum Beispiel Papierdokumenten und Fotos zu empfangen und den Scan zu interpretieren. Das HWR übernimmt die Formatierung, führt die korrekte Segmentierung in Zeichen durch und findet die plausibelsten Wörter.

Warum gibt man sich soviel Mühe damit, Dokumente, auch historische, handgeschriebene „lesbar“ zu machen? Wenn es darum geht komplette Texte auszuwerten und die relevanten Stichworte darin als Suchbegriffe zu hinterlegen, ist eine automatisierte Schrifterkennnung im Vergleich zur manuellen Datenerfassung unschlagbar. Wenn nach Stichworten innerhalb größerer Texte gesucht wird, liefert diese Texterkennung vollkommen hinreichende Ergebnisse – denn zu 95% wird die sie direkte Treffer liefern und an die Textfundstelle innerhalb des Dokumentes „springen“. Diese Prozentzahlen zeigen, dass eine wie immer geartete Texterkennung unter Umständen einer manuellen Prüfung bedürfen. Für den Auftraggeber mögen allerdings auch 95% hinreichend sein, das wäre dann Teil der schriftlichen Auftragserteilung. Es kommt letztlich auf die Nutzung und die dafür nötige Genauigkeit / Vollständigkeit an.

Für Archive und Bibliotheken sind mit OCR und HWR bearbeitete historische Unterlagen unter Umständen sehr wichtig, da deren Aufgaben und von außen auf sie zukommende Anforderungen sich im 21. Jahrhundert deutlich verändern. Beispielsweise werden Dokumente öffentlich zugänglich gemacht (meist per Internet), um etwa die Forschung zu unterstützen. Eine Volltext-Suche ist da eigentlich elementar.

Foto: Olya

picturesafe-Wissen (3):
Bestandschonendes Scannen – jeder Auftrag ist auch ein Kompromiss

von Thomas M. Ruthemann | Mai 12, 2021

Bei der Digitalisierung geht es heutzutage in aller Regel um schützenswertes Kulturgut – entsprechende Fachkenntnisse sind daher elementar. Ohne den Einsatz von ausschließlich geschultem und vor allem langjährig erfahrenem Scan-Personal, können solche Projekte denn auch schnell scheitern.

Digitalisierung wird bei picturesafe grundsätzlich als elementarer Bestandteil eines Bestandmanagements verstanden. Die maximale Schonung steht denn auch klar im Vordergrund und somit der Schutz der Originale immer an erste Stelle. Grundsätzlich sollte in der Tat der Originalerhalt Priorität vor einer möglichen Digitalisierung haben. Genau deswegen ist tatsächlich fast jeder Auftrag ein Kompromiss.

Aus diesem Grund wird bei picturesafe zu jedem Projekt (unabhängig von der Auftragsgröße) ein dedizierter Projektleiter oder Projektleiterin benannt, die mit den verantwortlichen Entscheidern beim Auftraggeber etwaige Fragestellungen klären. Insgesamt ist es tatsächlich (egal ob Karteikarten, Zeitungen, Zeitschriften, Bücher, Akten oder Urkunden – egal welchen Alters) immer ein Abwägen zwischen dem Aufwand und einem zu erwartenden Digitalisierungs-/Scan-Ergebnis.

Natürlich geht es dabei ohne Frage auch real um Kosten, denn nicht jedes Projekt ist auch gleich mit einem üppigen Budget ausgestattet. Ein gutes Beispiel, bei dem man über Kompromisse sprechen muss, ist etwa die Relation von Auftrag und Ertrag bei der Schrifterkennung. Gerade bei alten Handschriften können die letzten drei bis fünf Prozent unter Umständen zu einem unendlichen Aufwand führen. Auch muss man manchmal überlegen, wie umfangreich man die Anreicherung durch Metadaten gestaltet – einfach oder äußerst umfangreich?

Vorgaben zur Planung und Umsetzung

Vor diesem Hintergrund sind bei einem Digitalisierungs-Auftrag bei picturesafe folgende Prämissen wesentlich und gehören zu einer guten Planung und Umsetzung:

Einsatz ausschließlich aktueller, einwandfrei gewarteter und kalibrierter Aufsichtsscanner mit hochauflösenden Kameras renommierter Hersteller – stets ausgestattet mit hervorragenden Wartungs- und Supportverträgen
Steuerung der Scanner durch renommierte und jahrelang erprobter Software jeweils in der aktuellen Version
Einsatz von Testmiren und Farbreferenzen zu regelmäßige Kalibrierung der Scanner
Reflektionsfreie, kalte LED-Ausleuchtung der Scanfläche, inklusive Echtzeitvorschau
Zertifizierung nach Metamorfoze, FADGI und ISO 19264-1:2017
Aufnahmeflächen mit motorischen Buchwippen, inklusive variabler Buchrückenfreistellung
Einsatz gefederter Glasplatten nach Maßgabe des Auftraggebers
Bei Bedarf Nutzung „Münchner Finger“ zur Herstellung der richtigen Planlage
Einsatz von Buchsofas („Norfolk Book Sofa“ – ein Baumwollbezug mit Styroporkugel-Füllung – zur Nutzung in Museen freigegeben), sollte die physische Struktur einer Akte, die Beschaffenheit von Bindung bzw. Heftung – aber auch eventuell auftretende Schadbilder – eine Digitalisierung mit einem verringerten Öffnungswinkel (80-110°) erfordern
Die Digitalisierung wird nach Vorgabe des Auftraggebers und dessen Parametern durchgeführt. Eine obligatorische Beratung durch den oder die Projektleiter geht dem voraus und soll mögliche, notwendige Kompromisse vorab klären
Generell wird ohne Einsatz von Bildverbesserungs- oder Stiching-Funktionen digitalisiert (es sei denn, ausdrücklich gewünscht)
Durchgängiges Qualitätsmanagement und natürlich auch Datenschutz nach DSGVO-Vorgaben

Foto: felix

Es gibt noch viel zu digitalisieren!

Wie bei der picturesafe management GmbH alles anfing

picturesafe-Wissen (6): Universell nutzbare XML-Dateien für Information und Dokumentation

Warum wird XML für Metadaten benutzt?

Arbeiten mit XML bei der Digitalisierung

picturesafe-wissen (5): Digitalisate und digitale Formate – Die Bedeutung von Metadaten

Standards und Praxis-Beispiele

picturesafe-Wissen (4): OCR und Texterkennung als Spezial-Disziplin beim Digitalisieren

Mit HWR / HTR auch Handschriften erkennen

picturesafe-Wissen (3): Bestandschonendes Scannen – jeder Auftrag ist auch ein Kompromiss

Vorgaben zur Planung und Umsetzung

Neueste Beiträge

Archiv

picturesafe-Wissen (6):
Universell nutzbare XML-Dateien für Information und Dokumentation

picturesafe-wissen (5):
Digitalisate und digitale Formate – Die Bedeutung von Metadaten

picturesafe-Wissen (4):
OCR und Texterkennung als Spezial-Disziplin beim Digitalisieren

picturesafe-Wissen (3):
Bestandschonendes Scannen – jeder Auftrag ist auch ein Kompromiss