OCR-Fehler: Ursachen und Lösungen

Aurica Voss
19. Dezember 2018

Eine beliebte Anwendung für das papierlose Büro ist die automatische Zeichenerkennung oder Optical Character Recognition, kurz OCR. Fehler sind allerdings bei dieser Software keine Seltenheit. Die umgewandelten Dokumente sind häufig unzuverlässig und somit nicht zu 100 Prozent nutzbar. In diesem Artikel werden typische OCR-Probleme und deren Ursachen erläutert und Tipps zur Verbesserung der OCR-Qualität gegeben.

Wenn Software an ihre Grenzen stößt

OCR-Software kann ein äußerst wirkungsvolles Werkzeug sein, jedoch nie ein perfektes: Ein Dokument in einen verarbeitungsfähigen Text umwandeln zu lassen, ist in der Regel kein fehlerfreies Verfahren. 

regis24-blog_ocr-fehler-ursachen-und-loesungen_typografie

Die akkurate, automatisierte Texterkennung ist eine Herausforderung, die zwar weitgehend gelöst wurde. Konventionelle OCR-Software wandelt den Text eines Dokuments, welches eine typische Bildqualität aufweist, mit einer Genauigkeit von 98 Prozent um. 
 
Dieser Grad an Genauigkeit zeigt jedoch die Fehleranfälligkeit und bedeutet, dass ein 1.000 Zeichen umfassender Text 20 Erkennungsfehler enthält. Für einen deutschsprachigen Text heißt das ganz praktisch, dass jedes achte Wort einen Fehler aufweist. Wie kommen Ungenauigkeiten in so hoher Anzahl zustande?

Die Ursachen für Erkennungsfehler sind vielfältig

OCR-Fehler und die damit verbundene Fehlerrate in der Erkennung hängen von verschiedenen Faktoren ab. Der Umfang und die Qualität der Muster-Datenbank und des Wörterbuchabgleichs spielen hier eine wesentliche Rolle, ebenso wie die Bildqualität des Dokuments, welches umgewandelt werden soll – Farbigkeit, Kontrast, Schriftart und Layout sowie die programmeigene Qualität der Algorithmen zur Fehlerkorrektur.  

OCR-Fehler: Ursachen und Lösungen Darüber hinaus ist relevant, wie das jeweilige Programm Nachkorrekturhilfen gewichtet. Die Ergebnisse der Programme, insbesondere in Hinsicht auf potentielle Erkennungsfehler während des Vorgangs der Texterkennung, unterscheiden sich meist substantiell. Ist beispielsweise die Gewichtung des Wörterbuchabgleichs relativ stark, bringt das mit sich, dass korrekt erkannte, aber nicht im Wörterbuch verzeichnete Wörter ersetzt werden durch sprachlich richtige, aber nicht der Vorlage entsprechende Wörter, unter anderem bei Sprachen, Schreibweisen und Eigennamen.

Was sind typische OCR-Probleme?

Häufig gibt es bei der fehlerhaften Texterkennung sehr ähnliche, von der Norm abweichende Situationen. Bilder oder Tabellen werden nicht erkannt oder Symbole wie „?" und „□" werden anstelle von Buchstaben ausgegeben. Ebenfalls zu Problemen bei der Texterkennung kommt es, wenn ein gedruckter Text viele Fachbegriffe oder seltene Begriffe enthält. Textabschnitte, die vertikal oder invertiert sind (heller Text vor dunklem Hintergrund), sind typischerweise problematisch.

Eine große Fehlerquelle sind auch Zahlenlisten, beispielsweise Tabellen: Sind semantische oder syntaktische Strukturen vorhanden, wie in Texten, helfen diese, Fehler leichter zu entdecken und zu korrigieren. Bei Ziffern ist dies ungleich schwieriger. Zahlenlastige Dokumente machen meist einen peniblen Vergleich der Ergebnisse erforderlich. Nicht dem Standard entsprechende Schriftarten stellen eine weitere Herausforderung dar: Je kleiner und verspielter die Schrift, desto mehr Fehler muss der Anwender später manuell korrigieren. Selbst Schmutz auf der Vorlage kann zu gravierenden Ungenauigkeiten führen: Ein kleiner Tonerfleck auf der Faxvorlage macht aus einem „u” schnell ein „ü”.

Sensible Daten erfordern eine präzise Software

Ein kleiner Tonerfleck auf der Faxvorlage macht aus einem „u” schnell ein „ü”. Lieber ins Schwarze treffen mit <2% Fehlerrate!

Bestimmte Anwendungen für Texterkennungssoftware erfordern eine Fehlerrate, die signifikant niedriger ist als 2 Prozent, da sonst schwerwiegende Auswirkungen die Folge sein können. Dies trifft vor allem immer dann zu, wenn sensible Daten zugrunde liegen, die das Programm umwandeln soll: Bei der Verarbeitung von Rechnungsdetails, Anschriften oder Personendaten ist es entscheidend, dass die Erkennungsgenauigkeit so hoch wie möglich ist und Maßnahmen zum Einsatz kommen, die die Vermeidung von OCR-Fehlern gewährleisten.

Nicht jeder Fehler ist harmlos

Am Beispiel von Liefer- oder Postanschriften wird deutlich, wie ungünstig es sich auswirken kann, wenn Teile davon fehlerhaft ausgelesen werden und beispielsweise die Hausnummer nicht korrekt erkannt wird: Der Brief kann nicht zugestellt werden und kommt zurück oder wird sogar der falschen Person zugestellt. Im schlimmsten Fall kommt es zu einer Personenverwechslung, was wiederum juristische Konsequenzen zur Folge haben kann. In jedem Fall werden unnötige Kosten verursacht. Eine fehlerfreie Datenerkennung ist daher auf mehreren Ebenen ein wesentliches Qualitätsmerkmal bei der Anwendung von optischer Zeichenerkennung. 

Wie man die Erkennungsqualität einfach verbessern kann:

Die Verringerung von OCR-Fehlern ist mit verschiedenen Mitteln möglich. Optimiert werden kann das Scanergebnis der Dokumentvorlage durch unterschiedliche Einstellungen. So gibt es in der Software enthaltene Problembehandlungen und Automatikfunktionen: Je nachdem, wie die jeweiligen Programme ausgestattet sind, kann jedoch damit nicht jedem Problem beigekommen werden.  

Die manuelle Überprüfung und Korrektur von Erkennungsfehlern im Anschluss an einen OCR-Vorgang stellen ebenfalls eine Lösung dar und sind in den meisten Fällen sogar unvermeidlich. Je nach Beschaffenheit der Vorlage kann diese Nachbearbeitung allerdings sehr aufwändig ausfallen, vor allem in der Anfangszeit der Anwendung, wenn das Programm noch lernt. OCR-Programme merken sich, wo etwas auf einem Dokument platziert ist. Deshalb erleichtern standardisierte Vorlagen die manuelle Fehlerkorrektur, beschleunigen die Texterkennung und verringern die Fehleranfälligkeit.

Beste Qualität? Wichtig für die korrekte Texterkennung!

Darüber hinaus empfiehlt sich das Verwenden einer integrierten Rechtschreibkorrektur, die es ermöglicht, durch den ”Suchen und Ersetzen”-Befehl gleichartige Folgefehler schnell und einfach zu berichtigen. Hilfreiche Tipps und Hinweise für die Verbesserung der Erkennungsqualität geben auch Webinare im Internet, mit einer großen Bandbreite an Schwerpunkten. Für unser oben angeführtes Beispiel der Angaben zu Anschriften und Personen kann die automatisierte Normierung der Daten für eine verbesserte Erkennungsqualität und die Vermeidung sich nachteilig auswirkender OCR-Fehler eine einfache Lösung darstellen. 

Wie kann Anschriftennormierung bei OCR-Problemen unterstützen?

Falsch zugestellte Post, die aus fehlerhaften Daten resultiert, führt zu Ärger bei allen Beteiligten und zusätzlichem, unnötigem Aufwand. Um dies zu vermeiden, empfiehlt sich der Einsatz einer Anschriftennormierung im Anschluss an die Texterkennung. Unsere Lösung beinhaltet den Abgleich eines Anschriftendatensatzes gegen Referenzdatenbestände, die dem deutschen Straßen- und Postleitzahlenverzeichnis (inklusive Historie) entsprechen. Sie nimmt eine Strukturierung der Daten sowie die entsprechende Korrektur vor. Die Normierung erfolgt über einen hochverfügbaren Webservice in Echtzeit und bietet sowohl Einzelabfragen als auch csv-Stapelverarbeitung. 

Sie sind an einer solchen Lösung interessiert und möchten Genaueres dazu erfahren? Melden Sie sich jetzt für unser kostenloses Webinar an. In diesem erläutern wir Ihnen das Verfahren der Anschriftennormierung und wie Sie diese Lösung einfach, schnell und kostenlos implementieren können. 

OCR Fehler und Ursachen

 

Webinar: Anschriftennormierung - Verfahren und Implementierung

Teilnahme und Anmeldung: 

Die Teilnahme ist kostenfrei. Zur Anmeldung genügt eine E-Mail an presse@regis24.de. Ansprechpartnerin ist Aurica Voss.

Wir freuen uns über Ihre Teilnahme! 

Lesen Sie auch

diese Beiträge der Kategorie Technologie