philtag 14 (2017)

<philtag n="14"/>

Vom 16.-17. März 2017 fand in Würzburg der 14. Workshop der DH-Tagungsreihe <philtag/> statt. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen. Wie schon im Vorjahr wurde der Workshop auch in diesem Jahr wieder von KALLIMACHOS ausgerichtet.

Tagungsplan

Hinweis zur Anreise: Wenn Sie mit der Bahn anreisen, erreichen Sie die Zentralbibliothek am besten über die Buslinien 214 und 114 (Haltestelle Universitätszentrum) oder die Buslinie 14 (Haltestelle Am Hubland, von hier ca. 300 Meter geradeaus. Sie bewegen sich in diesem Fall an der Rückseite der Universitätsbibliothek vorbei).

Tag 1 (16.3.2017)

ca. 11:15	Registrierung
11:15-11:30	Begrüßung
11:30-12:00	Tolga Uslu (Uni Frankfurt, Text Technology Lab): Wikidition – Eine Architektur für digitale Editionen Wahed Hemati (Uni Frankfurt, Text Technology Lab): Textimager – Eine webbasierte Umgebung für die bildgebende Semantik
12:00-12:20	Kaffeepause
12:20-12:40	Ben Kiessling (Uni Leipzig, Digital Humanities): OCR-Processing in Leipzig's OpenPhilology Project
12:40-13:00	Thomas Köntges (Uni Leipzig, Digital Humanities): Computergestützte Textanalyse digitaler Editionen morphologisch-komplexer Texte
13:00-14:00	Mittagspause
14:00-14:20	Marcus Liwicki (Uni Freiburg, Informatik): Deep Learning für Automatische Dokumentanalyse
14:20-14:40	Stefan Müller (BAdW): Ptolemaeus Arabus et Latinus. Transkriptionen, Konvertierung und Verknüpfung
14:40-15:00	Nachwuchsgruppe CLiGS: Die CLiGS-textbox – Ein Modell für das Aufbauen und Bereitstellen von literarischen Textsammlungen
15:00-15:30	Zusammenfassung Tag 1, Abschlussdiskussion
ab 19:00	Abendessen im Restaurant Backöfele Karte

Hinweis zum Abendprogramm: Von der Zentralbibliothek aus erreichen Sie das Backöfele am besten über die Buslinie 10, Haltestelle Sanderring. Von hier aus gehen Sie die Sanderstraße ca. 500 Meter hinunter in Richtung Innenstadt bis zur Kreuzung Neubaustraße. Von dort aus gehen Sie geradeaus weiter in die Augustinerstraße und biegen nach ca. 150 Metern nach rechts in die Bockgasse. Am Ende der Bockgasse biegen Sie nach links in die Ursulinergasse, wo Sie schließlich das Backöfele mit seinem charakteristischen runden Holzportal finden. Wenn Sie aus der Innenstadt kommen, können Sie mit den Straßenbahnlinien 1, 3, 4 und 5 direkt zur Haltestelle Neubaustraße fahren und der Augustinerstraße wie oben beschrieben folgen.

Tag 2 (17.3.2017)

9:00-9:20	Markus Krug (Uni Würzburg, Informatik VI): ATHEN – Ein Werkzeug zur Annotation von Textkorpora
9:20-9:40	Christian Reul (Uni Würzburg, Informatik VI): LAREX – Ein Werkzeug zur Layout-Analyse und Segmentierung von frühen Buchdrucken
9:40-10:00	Günter Mühlberger (Projekt Transkribus): Transkribus – Eine Forschungsinfrastruktur zur automatisierten Transkription, Erkennung und Anreicherung historischer Dokumente.
10:00-10:20	Kaffeepause
10:20-10:40	Uwe Springmann (CIS München): Gemischte OCR-Modelle für die Erkennung gedruckter Texte seit Gutenberg
10:40-11:00	Florian Fink (CIS München): PoCoTo – Ein Werkzeug zur interaktiven Nachkorrektur
11:00-11:30	Zusammenfassung Tag 2, Abschlussdiskussion

Tagungsbericht

Den thematischen Schwerpunkt der diesjährigen Tagung stellten Digitale Editionen im erweiterten Sinne dar. Die insgesamt zwölf Vorträge beschäftigten sich mit Verfahren zur Erschließung digitaler Volltexte, insbesondere durch Optical-Character-Recognition (OCR), sowie mit der Korrektur, Auszeichnung und schließlich der Präsentation und Visualisierung der Texte und Textkorpora im Netz.

Tag 1

Den Anfang machten Wahed Hemati und Tolga Uslu (Universität Frankfurt), die zwei beim Frankfurter Text Technology Lab entwickelte Projekte vorstellten: Das Projekt Wikidition bietet eine Darstellungsumgebung für digitale Editionen, die auf Semantic MediaWiki basiert und unter Anderem Möglichkeiten zur Lemmatisierung, Annotation und Vergleich der erfassten Texte liefert. Darüber hinaus stellt der Textimager ein mächtiges Tool zur automatischen Textanalyse dar, das eine Vielzahl etablierter Analyseverfahren gemeinsam mit etablierten und neuen interaktiven Visualisierungsmöglichkeiten in einem gemeinsamen Framework zusammenführt.

Ben Kiessling (Uni Leipzig, Digital Humanities) stellte die im Leipziger OpenPhilology-Projekt zum Einsatz kommende OCR-Pipeline Nidaba vor, die eine Kombination zahlreicher freier Softwaremodule zur automatischen Bildvorverarbeitung, Layoutanalyse und Texterkennung erlaubt. Im Anschluss diskutierte Thomas Köntges (Uni Leipzig, Digital Humanities) die Möglichkeiten und Herausforderungen bei der computergestützten Textanalyse von historischen Texten. Während Verfahren etwa zum Topic Modelling auf modernen englischen Texten vergleichsweise leicht anwendbar sind, funktionieren diese bei antiken griechischen Texten aufgrund der höheren morphologischen Komplexität deutlich schlechter. Hier sind umfangreiche morphologische Normalisierungen nötig, die allerdings stets verlustbehaftet sind.

Marcus Liwicki (Uni Freiburg, Informatik) gewährte in seinem Beitrag Einblicke in die Funktionsweise neuronaler Netze, die durch Deep Learning z.B. darauf trainiert werden können, Layoutzonen in historischen Dokumenten zu erkennen oder aus den Texten automatisch bestimmte Schlüsselinformationen zu extrahieren.

Steffan Müller (BaDW) stellte das Akademieprojekt Ptolemaeus Arabus et Latinus vor, bei dem Transkriptionen der astronomischen und astrologischen Werke des Claudius Ptolemaeus (2. Jh. n. Chr.) in einer leserfreundlichen Online-Edition zusammen mit den dazugehörigen Faksimila im Netz dargeboten werden. Der reichhaltig annotierte und mit Metadaten angereicherte Text wird hierbei zusätzlich mit einem Katalog von weiteren Werken vernetzt.

Den Abschluss des ersten Veranstaltungstages stellte der Vortrag der DH-Nachwuchsgruppe CLiGS dar. Präsentiert wurde die CliGS-Textbox, die der Nachwuchsgruppe als Organisationsmodell und Publikationskanal für die untersuchten Texte und Textkorpora (im konkreten Fall einer Sammlung literarischer Text in romanischen Sprachen) dient. Als Publikationsstrategie dient hierbei eine Kombination der kooperativen Entwicklungsumgebung GitHub mit dem Online-Speicherdienst Zenodo, der die persistente Verfügbarkeit der Texte und Forschungsdaten sicherstellt.

Wie schon im Vorjahr war auch diesmal als Ausklang ein gemeinsames Abendessen angesetzt, diesmal im Würzburger Traditionslokal Backöfele. Hier konnten die Eindrücke der Vorträge im Gespräch vertieft und neue Kontakte geknüpft werden.

Tag 2

Der zweite Veranstaltungstag begann mit zwei Vorträgen des Würzburger Lehrstuhls für Künstliche Intelligenz und Angewandte Informatik (Informatik VI): Markus Krug präsentierte mit ATHEN ein Werkzeug zur Annotation von Textkorpora. ATHEN ist in der Lage, verschiedene Arten von digitalen Texten zu importieren, um diese mit weiteren Informationen anzureichern. Auf diese Weise können z.B. Eigennamen sowie die sich auf sie beziehenden Personalpronomen erkannt und ausgezeichnet werden. Darüber hinaus kann ATHEN automatisch direkte Rede inklusive der Sprecher und Angesprochenen sowie eine Vielzahl weiterer Merkmale literarischer und nichtliterarischer Texte erkennen. Christian Reul stellte das Tool LAREX vor, das eine vereinfachte Segmentierung und Layout-Analyse von frühen Buchdrucken ermöglicht. Das Tool schlägt hierzu Bildregionen im gescannten Text vor und versucht, diese automatisch z.B. als Fließtexte, Illustrationen, Marginalien oder Kopfzeilen zu klassifizieren. Die Ergebnisse können z.B. zur automatischen OCR-Erfassung oder zur Verknüpfung von digitalem Text und den dazugehörigen Bildregionen genutzt werden.

Günter Mühlberger (Universität Innsbruck, DEA) stellte die Online-Forschungsinfrastruktur Transkribus vor, die verschiedene Tools zur automatischen Dokumentenanalyse vereint. Zu den mit Transkribus analysierbaren Texten gehören insb. auch handschriftliche Texte.

Auch die beiden abschließenden Vorträge des Münchner Centrums für Informations- und Sprachverarbeitung (CIS) beschäftigen sich mit der OCR historischer Texte: Uwe Springmann diskutierte die Herausforderungen bei der OCR von Frühdrucken, insb. hinsichtlich der Vor- und Nachteile von gemischten und von individuell für den jeweiligen Text erstellten OCR-Modellen. Florian Fink stellte schließlich die am CIS verwendete Software PoCoTo vor, die eine vereinfachte interaktive Nachkorrektur von OCR-erzeugten Transkriptionen ermöglicht.

Fazit

Auch in diesem Jahr erfuhr der Philtag mit 70-80 interessierten und motivierten Teilnehmerinnen und Teilnehmern einen hohen Zuspruch. Wir bedanken uns an dieser Stelle sowohl bei unseren Vortragenden als auch beim Publikum für die zahlreiche Anregungen und die engagierte Teilnahme an der Tagung. Wir freuen uns darauf, Sie im nächsten Jahr wieder bei uns begrüßen zu dürfen!

Originalseite (Webarchiv)

Hubland Nord, Geb. 23