Ganz generell wird bei der „OCR“ („Online Character Recognition“) – der Texterkennung von Dokumenten – das Originalbild in verschiedenen Zwischenschritten vorverarbeitet, bevor die Software überhaupt über den eigentlichen Inhalt des Textes „nachdenkt“. Dabei misst sie die Bilder der Originalbuchstaben aus, dann ordnet sie diese Messungen nach Eigenschaften, um dann den dazu passenden Buchstaben zu finden. Doch wie geht das genau und warum ist es so wichtig, wenn es um Digitalisierung-Prozesse geht?
Texterkennung ist deshalb notwendig, weil optische Eingabegeräte (Scanner oder Digitalkameras) als Ergebnis ausschließlich Rastergrafiken liefern können, also in Zeilen und Spalten angeordnete Punkte unterschiedlicher Färbung (den Pixeln). Der Prozess wird sehr gut und präzise in der Wikipedia beschrieben: „Automatische Texterkennung und OCR werden im deutschen Sprachraum oft als Synonym verwendet. In technischer Hinsicht bezieht sich OCR jedoch nur auf den Teilbereich der Mustervergleiche von separierten Bildteilen als Kandidaten zur Erkennung von Einzelzeichen. Diesem OCR-Prozess geht eine globale Strukturerkennung voraus, in der zuerst Textblöcke von graphischen Elementen unterschieden, die Zeilenstrukturen erkannt und schließlich Einzelzeichen separiert werden. Bei der Entscheidung, welches Zeichen vorliegt, kann über weitere Algorithmen ein sprachlicher Kontext berücksichtigt werden.“
Das Programm vergleicht also im Wesentlichen die eingescannten Buchstaben mit den Mustern. Wenn sie sich zu etwa 99% ähneln, entscheidet der Algorithmus, dass es wahrscheinlich dieser oder jener Buchstabe oder Zeichen sein muss. Hierbei ist er sehr präzise, denn er kann viele Muster in kurzer Zeit vergleichen. Moderne Texterkennung umfasst denn auch mehr als reine OCR, also die Übersetzung einzelner Schriftzeichen. Zusätzlich werden Methoden der Kontextanalyse, Intelligent Character Recognition (ICR), hinzugezogen, mit denen die eigentlichen OCR-Ergebnisse korrigiert werden können. So kann etwa ein Zeichen, das eigentlich als „8“ erkannt wurde, zu einem „B“ korrigiert werden, wenn es innerhalb eines Wortes steht.
Mit HWR / HTR auch Handschriften erkennen
Für viele der Dokumente, die bei picturesafe verarbeitet werden, ist jedoch noch eine zweite Form ganz entscheidend: Dabei müssen Handschriften (oft sehr alte, historische Vorlagen) erkannt und verarbeitet werden. Die Handschrifterkennung (HWR), auch bekannt als „Handwritten Text Recognition“ (HTR), ist die Fähigkeit des angeschlossenen Computers, verständliche handschriftliche Eingaben aus Quellen wie zum Beispiel Papierdokumenten und Fotos zu empfangen und den Scan zu interpretieren. Das HWR übernimmt die Formatierung, führt die korrekte Segmentierung in Zeichen durch und findet die plausibelsten Wörter.
Warum gibt man sich soviel Mühe damit, Dokumente, auch historische, handgeschriebene „lesbar“ zu machen? Wenn es darum geht komplette Texte auszuwerten und die relevanten Stichworte darin als Suchbegriffe zu hinterlegen, ist eine automatisierte Schrifterkennnung im Vergleich zur manuellen Datenerfassung unschlagbar. Wenn nach Stichworten innerhalb größerer Texte gesucht wird, liefert diese Texterkennung vollkommen hinreichende Ergebnisse – denn zu 95% wird die sie direkte Treffer liefern und an die Textfundstelle innerhalb des Dokumentes „springen“. Diese Prozentzahlen zeigen, dass eine wie immer geartete Texterkennung unter Umständen einer manuellen Prüfung bedürfen. Für den Auftraggeber mögen allerdings auch 95% hinreichend sein, das wäre dann Teil der schriftlichen Auftragserteilung. Es kommt letztlich auf die Nutzung und die dafür nötige Genauigkeit / Vollständigkeit an.
Für Archive und Bibliotheken sind mit OCR und HWR bearbeitete historische Unterlagen unter Umständen sehr wichtig, da deren Aufgaben und von außen auf sie zukommende Anforderungen sich im 21. Jahrhundert deutlich verändern. Beispielsweise werden Dokumente öffentlich zugänglich gemacht (meist per Internet), um etwa die Forschung zu unterstützen. Eine Volltext-Suche ist da eigentlich elementar.
Foto: Olya