FID4SA-Blog

Forschungsdaten und Ground Truth Transkriptionen

Avatar of Nicole Merkel-Hilf Nicole Merkel-Hilf - 26. October 2022 - Aktuelles

Forschungsdaten und Ground Truth Transkriptionen

Der FID4SA nutzt für die Texterkennung südasiatischer Schriften die im Rahmen des READ Projekts entwickelte Plattform Transkribus. Verschiedene Datenmodelle für die Texterkennung der Devanāgarī-Schrift wurden mit Transkribus trainiert und liefern mit einer Character Error Rate (CER) von ca. 2,3 % sehr gute Erkennungsergebnisse. Diese Datenmodelle basieren auf sogenannten Ground Truth Transkriptionen. Das sind 1:1 Abschriften des Textes auf dem Dokumentfaksimile.

Der FID4SA hat mit FID4SA@heiDATA ein Dataverse für die Archivierung von Ground Truth Daten für südasiatische Schriften eingerichtet. Interessierte Wissenschaftlerinnen und Wissenschaftler können die dort archivierten Daten herunterladen und als Trainingsdaten für eigene Texterkennungsmodelle nachnutzen. Gleichzeitig sind Wissenschaftlerinnen und Wissenschaftler, die sich mit der Texterkennung für südasiatische Schriften befassen, eingeladen, dieses Archiv für die Bereitstellung ihrer eigenen Ground Truth Daten zu nutzen und zum Aufbau eines Ground Truth Daten Archivs an zentraler Stelle beizutragen.

Falls Sie Interesse an der Archivierung Ihrer Ground Truth haben, dann nehmen Sie gerne mit uns Kontakt auf!

Neuer Kommentar

0 Kommentare