OCR: Fortschritte bei der Texterkennung
13.06.2017Auszeichnung für Dr. Uwe Springmann von der Universitätsbibliothek Würzburg: Er erhielt für seine Arbeit im Bereich der automatisierten Texterkennung (OCR) mit Kollegen aus München einen Preis.
Bei der Digitalisierung historischer Bücher, Urkunden und anderer Schriften spielt die automatische Texterkennung (Optical Character Recognition, OCR) eine wichtige Rolle. Diese Technik erkennt den Text aus gescannten Dokumenten und überführt ihn in eine Form, die sich mit Textverarbeitungsprogrammen weiterverwerten lässt.
Für seine Arbeit auf diesem Gebiet wurde der neue Leiter der Abteilung Digitalisierung / Kallimachos-Zentrum für Digital Humanities der Universitätsbibliothek Würzburg, Dr. Uwe Springmann, mit seinen Münchener Kollegen Florian Fink und Klaus U. Schulz ausgezeichnet. Auf der Konferenz DATeCH (Digital Access to Textual Cultural Heritage) in Göttingen bekamen die drei den „Best-Paper-Award“ für ihre Arbeit zu nachträglichen Textverbesserungen von OCR-Ergebnissen.
Ihr ausgezeichnetes Paper heißt „Profiling of OCR’ed Historical Texts Revisited”.
Weitere Arbeit aus Würzburg präsentiert
Auf der Konferenz wurde ein weiteres Paper präsentiert und diskutiert, an dem Mitarbeiter der Universität Würzburg beteiligt waren.
Christian Reul vom Lehrstuhl Informatik VI stellte ein neues Tool zur Vorverarbeitung von Digitalisaten vor. Es kann OCR-Ergebnisse verbessern: „LAREX – A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books”.
Die neue Software kam in Zusammenarbeit mit der Universitätsbibliothek schon zum Einsatz: In einer Anwendungsstudie wurde ein Werk aus dem Zeitalter des Frühdrucks gescannt, mit LAREX semantisch segmentiert und anschließend mit einer OCR erfasst, die speziell auf dieses Werk trainiert war. Dabei wurde eine Zeichenerkennungsrate von über 97 Prozent erzielt. Dieser hohe Wert ist erst aufgrund der Arbeiten von Springmann und seinen Würzburger Kollegen möglich. Zuvor hielt man es für unmöglich, frühe Drucke (Inkunabeln) mit OCR zu bearbeiten.
Das Paper von Christian Reul und den beiden Würzburger Unibibliotheksmitarbeitern Marco Dittrich und Martin Gruner heißt “Case Study of a highly automated Layout Analysis and OCR of an incunabulum: ‘Der Heiligen Leben’ (1488)”
Fakten zur Göttinger Konferenz
Die Konferenzreihe DATeCH hat sich als internationale Fachtagung für die neuesten Techniken der Digitalisierung etabliert. Sie bringt Forschungsteams und Bibliotheken zusammen, die innovative Ansätze entwickeln, um historische Dokumente zu digitalisieren. 2017 richtete die Staats- und Universitätsbibliothek Göttingen die Veranstaltung aus. Der Schwerpunkt lag auf OCR sowie der Nachkorrektur und Weiterverarbeitung der Daten.
Die Tagung unterstrich einmal mehr die Bedeutung der Digitalisierung für die Forschung. Die Digitalisierung des kulturellen Erbes ist nicht nur aus konservatorischen Gründen notwendig. Sie liefert auch einen Datenschatz, der automatisiert weiterverarbeitet werden kann.
Ziel: Digitalisate weltweit öffentlich machen
Eine Führung im Digitalisierungszentrum der Göttinger Bibliothek rundete die Tagung ab. Fast 200 Terabyte umfasst dort mittlerweile der Bestand an gescannten Büchern. Die Werke stehen in Kooperation mit dem Rechenzentrum der Universität Göttingen jedem Nutzer weltweit kostenfrei zur Verfügung. Dieses Ziel strebt auch die Universitätsbibliothek Würzburg an.
Kontakt
Dr. Uwe Springmann, Universitätsbibliothek, Abteilung Digitalisierung / Kallimachos-Zentrum für Digital Humanities, T (0931) 31-85697, uwe.springmann@bibliothek.uni-wuerzburg.de