FID4SA-Blog

Neue GT Daten für Malayalam

Avatar of Nicole Merkel-Hilf Nicole Merkel-Hilf - 24. February 2023 - Aktuelles

Unser Ground Truth Datenarchiv für südasiatische Schriften hat Zuwachs bekommen!
Wir haben heute auf unserem FID4SA@heiDATA Dataverse ein neues Ground Truth Datenset für die südindische Schrift Malayalam veröffentlicht. Die Daten wurden von der Universitätsbibliothek Tübingen bereit gestellt. Die Transkriptionen hat Elena Mucciarelli (Universität Groningen) mit Unterstützung von Dorothee Huff (Universitätsbibliothek Tübingen) erstellt.

Die GT Daten bestehen aus JPG und ALTO-XML-Dateien und können zum Trainieren von OCR-Modellen für gedruckte Texte in Malayalam-Schrift verwendet werden. Als Trainingsmaterial dienten Druckwerke des 19. und 20. Jahrhunderts aus den Beständen der Universitätsbibliothek Tübingen.

Neben GT Daten für Malayalam finden Sie in unserem Archiv noch Daten für weitere südasiatische Schriften. Schauen Sie vorbei!

Die Kommentarfunktion ist für diesen Artikel deaktiviert.

0 Kommentare