OCR – Mustervergleiche und Texterkennung. Wie aus Dokumenten durchsuchbare Datenbanken werden
Damit Informationen aus alten Dokumenten aller Art in IT-Systemen verarbeitet werden können, reicht es nicht, Dokumente einfach nur einzuscannen. Denn der Scan, beziehungsweise das Resultat wie ein TIF oder PDF, sie sind immer nur eine Bildkopie – ob als Rastergrafik oder im Postscript beschrieben. Nicht mehr und nicht weniger … letztlich eine Ansammlung schwarzer, weißer oder farbiger Bildpunkte. Die OCR (die „Optical Character Recognition“) steht für den nächsten wichtigen Schritt: Einzelne Buchstaben erkennen und diese zu Wörtern und anschließend zu logischen Sätzen zusammen zu setzen – das Bild wird in einen Text übersetzt.
Auch wenn automatische Texterkennung und OCR oft synonym verwendet werden, handelt es sich bei OCR eigentlich nur um den Mustervergleich. Dabei werden Textblöcke von graphischen Elementen unterschieden, anschließend werden die Zeilen und Wörter, am Ende die Buchstaben separiert. Die Entwicklung ist mittlerweile weit fortgeschritten, denn OCR kann nicht nur Standardschriften, sondern teilweise sogar Handschriften erkennen.
Hochentwickelte, leistungsstarke OCR-Software erspart viel Zeit und Aufwand bei der Erstellung, Verarbeitung und Wiederverwendung vieler unterschiedlicher Dokumente. Besonders bei der digitalen Bestandserhaltung, beziehungsweise der immer wichtiger werdenden Zugriffsmöglichkeiten auf digitale Archive, ist ein Verzicht auf OCR schlicht nicht mehr denkbar.
Wie die digitale Schrifterkennung funktioniert
Einmal abgesehen von speziellen Dokumenten mit Frakturschrift oder gar Handschrift, folgt die Texterkennung im allgemeinen einen festen Ablauf: Als allererstes macht die Software eine Layout-Analyse und guckt sich den Seitenaufbau an, trennt dabei Bilder von Text. Sie merkt sich auch deren Position auf der Seite und einzelne Elemente wie Seitennummern werden punktgenau gespeichert.
Als Nächstes werden die einzelnen Textblöcke angegangen und diese wiederum in Sätze zerlegt. Die Sätze werden dann in einzelne Wörter runtergebrochen und die Wörter dann in Buchstaben. Nun kommt die Datenbank der OCR-Software ins Spiel, die Muster von Buchstaben und Zeichen enthält. Das Programm vergleicht die eingescannten Buchstaben mit diesen Mustern und sobald sie sich zu 99 Prozent ähneln, entscheidet der Algorithmus, dass es wahrscheinlich dieser Buchstabe oder jene Zahl sein muss.
Diese Vorgehensweise ist so präzise, da die Software viele Muster in kurzer Zeit vergleichen kann. Eine Trainingsphase mit manuellen Korrekturen durch die Operatoren verbessert noch die interne Musterdatenbank und damit das Ergebnis. So gelingt auch zum Beispiel problemlos die Unterscheidung zwischen der Zahl „8“ und dem großen „B“. Was erkennbar ein durchaus schwerer Fall ist.
Anschließend werden die erkannten Buchstaben wieder zu Wörtern kombiniert und zurück in ihre Stelle im Satz eingeordnet. Aber Vorsicht, damit ist keinerlei Inhaltlichkeit verbunden – heißt, die OCR-Software kann nicht entscheiden, ob das, was sie „herausbekommen“ hat, auch wirklich Sinn ergibt. Was nicht bedeutet, dass zukünftige Generationen in ein paar Jahren mit Hilfe der künstlichen Schritt diese Schwelle auch noch überwinden werden.