FID für Südasien: Texterkennung

Texterkennung für historische Devanāgarī-Druckwerke

KI-basierte Ansätze bei der Texterkennung haben die Texterkennung für historische Dokumente einen großen Schritt vorangebracht, vor allem für nicht-lateinische Schriften. Seit Herbst 2018 nutzt der FID4SA für die Texterkennung des Devanāgarī-Bestandes der Naval Kishore Press Sammlung die im Rahmen des READ Projekts entwickelte Plattform Transkribus. Verschiedene Datenmodelle für die Texterkennung wurden mit Transkribus für diesen Bestand trainiert, die mit einer Character Error Rate (CER) zwischen 5,59% und 0,83% sehr gute Ergebnisse liefern, so dass auf Nachkorrekturen der Erkennungsergebnisse inzwischen weitgehend verzichtet werden kann.

Unser Datenmodell Devanagari mixed M1A für die Erkennung von gedruckten Devanāgarī-Texten steht für Transkribus-Nutzer:innen auf der Transkribus Webseite als öffentliches Modell zur Nachnutzung bereit. Weitere Modelle sind in Vorbereitung.

Der Workflow bei der Texterkennung mit Transkribus

Um die PyLaia-Engine von Transkribus mit Trainingsdaten für die Texterkennung zu füttern, muss zunächst eine Seitensegmentierung des Dokumentfaksimiles erfolgen. Das bedeutet, dass im Dokument die Textregionen und Zeilen definiert werden müssen. Dies kann manuell durchgeführt werden oder automatisiert mithilfe von Layout Analysis-Tools, die über die Transkribus Plattform bereit stehen.
Mit P2PaLA bietet Transkribus zudem ein Open-Source Tool zur Strukturerkennung von Texten an, mit dem sich individuelle Modelle zur Seitensegmentierung trainieren lassen. Mit den vom FID4SA-Team trainierten P2PaLA-Modellen für das an indische Handschriften angelehnte Pothi-Format und das Naval Kishore Press Standard-Buchformat kann die Seitensegmentierung der historischen Buchdrucke mit geringem manuellen Korrekturaufwand inzwischen automatisiert erfolgen.
Nach der Seitensegmentierung können über den Texteditor Ground Truth (GT) Transkriptionen erstellt werden. Das sind 1:1 Abschriften des Textes auf dem Dokumentfaksimile. Diese GT Transkriptionen werden manuell erstellt. Alternativ können vorhandene Transkriptionen auch in Transkribus importiert werden. Auf der Basis von ca. 5.000 Wörtern GT Transkriptionen bei gedruckten Texten kann ein Datenmodell für die automatische Texterkennung trainiert werden. Als Faustregel gilt - je mehr Trainingsdaten ein Modell enthält, umso besser ist die Erkennungsgenauigkeit, d.h. die Character Error Rate (CER).
Für die Weiterverarbeitung der Dokumente außerhalb von Transkribus stehen verschiedene Exportfunktionen und Exportformate zur Verfügung, z. B. ALTO PDF, TEI, TXT.

Unsere aktuellen Arbeitsschwerpunkte

Basierend auf den sehr guten Ergebnissen mit im Bleisatz-Verfahren gedruckten Dokumenten werden derzeit Ground Truth Transkriptionen für im Lithographie-Verfahren gedruckte Texte aus der NKP Sammlung erstellt. Diese bilden die Grundlage für das Training von Datenmodellen zur automatischen Texterkennung. Beim Lithographie-Druckverfahren werden die Texte handschriftlich von verschiedenen Schreibern und Kalligraphen auf den Lithographie-Stein aufgebracht. Da es sich also um handschriftliche Materialien handelt, besteht die besondere Herausforderung im Trainieren von Datenmodellen mit einer guten CER für unterschiedliche Handschriften.

Ein zweiter Arbeitsschwerpunkt ist das Trainieren von Datenmodellen für Texte in Devanāgarī-Schrift auf der Basis von Ground Truth "Transliterationen". Dabei wird eine lateinische Transliteration des Devanāgarī-Textes auf dem Dokumentfaksimile als GT Trainingsmaterial angefertigt. Ein erstes Datenmodell auf der Basis von ca. 9.000 Wörtern liefert mit einer CER von 4,05% beim Validierungsdatensatz ein vielversprechendes Ergebnis.

Bereitstellung der Texte

Die automatisiert erkannten Texte stehen Nutzer:innen als Bildfaksimile und als in Originalschrift sowie lateinischer Transliteration durchsuchbarer Volltext zur Verfügung. Die Webpräsentation der bearbeiteten Texte erfolgt über unser Portal Naval Kishore Press - digital. Dafür kommt die Heidelberger Eigenentwicklung DWork zum Einsatz. Die Software ist modular konzipiert und unterstützt sämtliche Einzelschritte des Digitalisierungsworkflows – von der Metadatenerstellung über die Scanverarbeitung bis zur Erstellung der Webpräsentation mit Annotations- und Kommentarfunktionen. Sie ermöglicht Wissenschaftler:innen eine räumlich und zeitlich verteilte Arbeitsweise an Texten.

Vernetzung

Der FID4SA tauscht sich mit anderen nationalen und internationalen Projekten aus, bei denen KI-Verfahren zur Struktur- und Texterkennung zum Einsatz kommen. So besteht zum Beispiel zwischen dem FID4SA-Team und dem Digital Curator des Projekts Two Centuries of Indian Print an der British Library ein enger fachlicher Austausch. Im Rahmen dieses Projekts wurden mehr als 1.000 historische bengalische Bücher digitalisiert und unter Nutzung von Transkribus Datenmodelle für die Texterkennung von Bengali trainiert. Darüber hinaus wurde eine HTR Expert Group gegründet, die sich zweimal im Jahr virtuell zum Erfahrungsaustausch trifft.

Texterkennung

Weiterführende Informationen

Einen Einblick in die Arbeit mit der Transkribus-Texterkennung bei der Digitalisierung der Sammlung Naval Kishore Press vermittelt ein Interview im ANUbhasha Podcast, Season 1, Episode 6 (March 31, 2023).

Kontakt

Nicole Merkel-Hilf
CATS Bibliothek /
Abt. Südasien
Tel.: +49 6221 54 15047
merkel@ub.uni-heidelberg.de