DH Methods

This is the english version in DEUTSCH

Zunächst plump ausgedrückt, sind die Digital Humanities Geisteswissenschaften, die sich Informationstechniken zu Nutze machen. Jedoch werden nicht nur informatische Methoden und Werkzeuge auf bestehende Fragestellungen und Diskurse angewandt, sondern darüber hinaus neue Wege beschritten, welche eben durch die informationstechnische Ausrichtung erst ermöglicht werden.

Nachfolgend sind für unser Projekt relevante Methoden aufgeführt und tiefergehend erläutert:

Aufbereitung & OCR

Wir verwenden OCR-Technologie (Optical Character Recognition) zur Erkennung und Konvertierung von Text aus elektronischen Versionen von Büchern. Wir mussten nicht immer OCR nutzen, da einige Sagen bereits im Volltext vorlagen. In Anbetracht der alten Version des Buches, der Schriftarten, die schwer zu erkennen waren und anderen Fragen, verwendeten wir hauptsächlich OCR-Erkennungssoftware für Open-Source-Software OCR4all und einmalige Buyout-Software PDFReaderPro. Während der Aufbereitung und der Nutzung von OCR, gab es einige Probleme.

Bei der Korrektur erkannter Texte waren fünf Arten von typischen Erkennungsfehlern festzustellen.

  • Am häufigsten traten Fehler bei einzelnen Buchstaben auf: Beispiele sind „s“ als „ſ“, „z“ als „ʒ“, „k“, die als „t“, „K“ als „S“ und „I“ als „J“ erkannt wurden.
  • Des Weiteren traten Erkennungsfehler bei einzelnen Satzzeichen auf. Doppelte Anführungszeichen unten wurden oft als doppelte Komma erkannt. Der Bindestrich „-“ wurde gelegentlich auch als „=“ erkannt.
  • Ein dritter Fehler betraf die Erkennung einzelner Wörter: Einige lange und ungewöhnliche Ortsnamen wurden fälschlicherweise in zwei oder mehr Wörter aufgeteilt.
  • Erkennungsfehler bei leeren Seiten und kleinen dekorativen Mustern gaben uns auch Probleme. Leere Blätter und kleine Muster vor der Seitenzahl wurden jedes Mal entweder als „ttttttt“, „000“, „088“ oder andere identifiziert.
  • Der letzte Fehler ließ sich bei Änderungen in der Textstruktur finden, bei denen ein Abschnitt irrtümlich in zwei oder mehr Teile getrennt wurde.

Wir haben Duden-Mentor zur Hilfe genommen, um falsche Wörter im Text zu erkennen und zu korrigieren. Die Software enthält einen Duden-Korpus, der eine umfangreiche Zusammenstellung elektronischer Texte beinhaltet und die Wortschätze verschiedenster Fachgebiete abdeckt.

Dennoch erkennt die Software manchmal Fehler, die eigentlich keine Fehler sind, wie z.B. die Groß- und Kleinschreibung von Wörtern oder die Erkennung bestimmter Buchstaben. Deshalb wurden die vom Duden falsch identifizierten Wörter in die IDE PyCharm geladen und ein Python-Skript geschrieben, das Wörter auf deren Rechtschreibung prüfte. Im Falle, dass das Ergebnis der Änderung nach der Überprüfung durch Duden und Python-Code noch nicht feststand, musste eine manuelle Korrektur vorgenommen werden.

Parser & Lokalisierung

Der Begriff “Parser” ist gebräuchlich im Bereich der Informatik und der Programmierung. Ein Parser ist ein Programm oder Werkzeug, das dazu dient, Eingaben zu analysieren und in Datenstrukturen umzuwandeln. Parser spielen deshalb in der Informatik eine wichtige Rolle, weil sie Programmen helfen, verschiedene Eingabedaten zu verstehen und zu verarbeiten.

In diesem Projekt wurden die Sagentexte nach der Aufbereitung für die Ausgabe mithilfe eines selbst implementierten Parsers strukturiert. Funktionalitäten, wie beispielsweise Leerzeilenbereinigung und Extraktion bestimmter Informationen für die Zusammenstellung der Datensätze, waren in dem Parser enthalten. Um diese umzusetzen, bestand der Parser aus zwei Teilen. Im ersten Teil wurde mit Hilfe der Sagentitel erkannt, wann eine neue Sage beginnt. Im zweiten Teil wurden mit Hilfe regulärer Ausdrücke zum Einen leere und unwichtige Zeilen entfernt und zum Anderen Seitenumbrüche erkannt und gespeichert. Das Ziel war, dass die Dateien in einem nächsten Schritt direkt für die XML-Struktur und Datenbankerstellung verwendet werden konnten.

Nach dem Parsen mussten den Sagen noch Orte hinzugefügt werden. Teilweise konnten wir hier Ortsverzeichnisse innerhalb der Bücher nutzen. Für die restlichen Sagen haben wir ein Pythonskript geschrieben, das die Named-Entity-Recognition (NER) Bibliothek flair nutzt, um alle Ortsnennungen innerhalb der Sagen zu extrahieren. Aus den pro Sage erkannten Orten wurde die häufigste Nennung ausgewählt und als Handlungsort der Sage gesetzt. Anschließend wurden den Orten mit Hilfe von deutschen und französischen Ortsverzeichnissen automatisch Koordinaten zugeordnet.

TEI & Datenbank

Die Text Encoding Initiative (TEI) ist eine gemeinnützige Mitgliederorganisation von akademischen Einrichtungen, Forschungsprojekten und Wissenschaftlern aus der ganzen Welt, die eine Reihe von Leitlinien für die digitale Kodierung von Text entwickelt und pflegt. Die Leitlinien sind eine Reihe von maschinenlesbaren Textkodierungen für die Verwendung in den Geistes-, Sozial- und Sprachwissenschaften.

In diesem Projekt wurde die TEI-Kodierung verwendet, um den einzelnen Sagen zu helfen, strukturierte, interoperable und digitalisierte Texte zu erstellen. Der Standard bietet eine Reihe von Elementen und Attributen zur Beschreibung der Struktur und der sprachlichen Merkmale eines Textes. Im Rahmen des Projekts wurden <TEI Header> und <body> automatisch mit Hilfe der TreeElement Library in einem Python-Skript erzeugt, woraufhin der Kodierer die Abschnitte <front> und <back> manuell kodierte.

Die Webseite musste die Integration und Erweiterung mehrerer Systeme beinhalten. Zur Erleichterung der Dateninteraktion und der gemeinsamen Nutzung von Daten, und um dem Publikum das Lesen der Werke auf der Webseite zu erleichtern, wurden in diesem Projekt Datenbanksysteme in die Webseite integriert, die eine Vielzahl von Datenschnittstellen und -formaten bereitstellen. MySQL ist ein quelloffenes relationales Datenbankverwaltungssystem, das für die Datenspeicherung und Verwaltung von Websites und Anwendungen weit verbreitet ist.

Webseite & Visualisierung

Dieses Projekt wurde mit dem Content-Management-System WordPress erstellt und verwaltet.

In der Anfangsphase des Projektes wurde vorgeschlagen, Typo3 (auch CMS) für die Darstellung der Informationen zu den Sagen zu nutzen. Die Idee dazu entsprang auf einem im letzten Semester besuchten Modul und dem Versprechen, dass es weit verbreitet ist und das kollaborative Arbeiten vereinfacht. Letzteres war uns wichtig, weil die Hälfte des Projektteams fehlende Kenntnisse in der Webentwicklung hatte und dies einer der Gründe für die Verwendung einer dynamischen Webseite war. Gegen Ende des Projektzeitraums waren wir gezwungen die Suche nach einer Alternative anzugehen. Grund dafür waren Muss-Anforderungen, wie z.B. die Visualisierung der Sagenherkunft auf einer Karte, die nicht zufriedenstellend umgesetzt werden konnten. Die Recherche von Alternativen ergab, dass WordPress für unsere Absichten geeignet war. Die zu dem Zeitpunkt bereits mit Typo3 implementierten Funktionalitäten, aber auch die noch ausstehenden Muss- und Soll-Anforderungen konnten dank regelmäßigem Austausch untereinander problemfrei behandelt und befriedigt werden.

M. Thaller, „Digital Humanities als Wissenschaft“, in Digital Humanities: Eine Einführung, F. Jannidis, H. Kohle, und M. Rehbein, Hrsg. Stuttgart: J.B. Metzler, 2017, S. 13–18. doi: 10.1007/978-3-476-05446-3_2