Intern
Zentrum für Philologie und Digitalität "Kallimachos"

Automatische Texterkennung

Mit seinen digitalen Werkzeugen konnte das ZPD in den letzten Jahren besonders bei der maschinellen Erkennung historischer Drucke sowie unterschiedlicher Schrifttypen und Handschriften weitreichende Fortschritte erzielen. Die selbst entwickelte, freie Software OCR4all kombiniert verschiedene Open-Source OCR Lösungen zu einem einheitlichen Workflow. Die Bedienung erfolgt über eine übersichtliche grafische Nutzeroberfläche, um auch explizit weniger technikaffinen Nutzern eine selbstständige und hochqualitative Erfassung anspruchsvoller Materialien zu ermöglichen.

OCR4all kommt in zahlreichen, auch internationalen Projekten mit sehr heterogenen Anwendungsszenarien zum Einsatz. Diese reichen z. B. von der Massenerfassung von französischen Romanen des 18. Jh. im Projekt MiMoText des Trier Center for Digital Humanities bis hin zur hochqualitativen Transkription von Inkunabeln (Projekt Danish Neo-Latin Literature der Universität Aarhus in Kooperation mit dem National Cultural Heritage Cluster und der Danish Royal Library) und vermehrt Handschriften.

Der Ausgangstext einer historischen Handschrift kann in verschiedenen Ansichten der Transkription in computerlesbaren Text zeilengenau gegenübergestellt und bei Bedarf korrigiert werden. (Bild: Christian Reul)

Seit 2020 kooperiert das ZPD zudem mit dem Projekt OCR-D, einer DFG-geförderten Initiative zur Weiterentwicklung von Verfahren der Optical Character Recognition. Durch einen erfolgreichen Projektantrag in der dritten OCR-D Förderphase erfolgt zudem seit Juli 2021, im Rahmen des OCR4all-libraries Projekts, eine stärkere technische Verknüpfung der beiden Ansätze.

Auch über OCR4all hinaus verfügt das ZPD über umfassende und breit gefächerte Kompetenzen im Bereich OCR/HTR, sodass auch die Entwicklung spezialiserter Lösungen, die eine noch stärke Anpassung an projektspezifische Bedürfnisse erlauben, jederzeit möglich sind.