Forschungsdaten

Die langfristige Archivierung von Forschungsdaten ist ein zentraler Aspekt guter wissenschaftlicher Praxis. Sie ist die Voraussetzung für die prinzipielle Nachvollziehbarkeit und Überprüfbarkeit wissenschaftlicher Ergebnisse, die auf der Auswertung dieser Daten beruhen. Zudem bietet die Archivierung solcher Daten die Chance, sie zukünftig im Kontext neuer wissenschaftlicher Fragestellungen nachnutzen zu können.

 

Forschungsdaten und E-Publishing bei HASP

Zusätzlich zu den E-Publishing Angeboten für Aufsätze, Bücher und Zeitschriften bietet der FID4SA Asienwissenschaftler:innen weltweit die Möglichkeit, auch die zugehörigen Forschungsdaten dauerhaft archivieren zu lassen. Diese können direkt mit den Online-Publikationen bei Heidelberg Asian Studies Publishing (HASP) verknüpft werden. Alle Forschungsdaten – seien es Bilder, Videos, Audio-Dateien, Tabellen, Graphiken – erhalten einen DOI (Digital Object Identifier) und sind somit dauerhaft zitierfähig und als eigenständige wissenschaftliche Leistungen sichtbar und gezielt verlinkbar.

Hierbei werden Bilder, Audio- und Videodaten sowie andere multimediale Objekte entweder auf der von der UB Heidelberg betriebenen Plattform heidICON gespeichert oder in das ebenfalls von der UB nachhaltig gehostete Heidelberger Digitalisierungssystem DWork integriert. Weitere Datenpublikationen liegen in HASP@heiDATA vor und werden von dort dynamisch in die Online-Publikation eingebunden. Nicht nur die Publikationen selbst, sondern auch die verwendeten Medienobjekte werden zukünftig in dem im Aufbau befindlichen und vom Universitätsrechenzentrum und der Universitätsbibliothek gemeinsam im Rahmen des Kompetenzzentrums Forschungsdaten (KFD) entwickelten OAIS-kompatiblen Langzeitarchivsystem heiARCHIVE nachhaltig archiviert. Auch der Code von im Kontext der Publikationen verwendeter Software kann auf heiDATA nachhaltig veröffentlicht und archiviert werden.

 

 Zu HASP@heiDATA

 

Forschungsdaten und Ground Truth Transkriptionen

Der FID4SA nutzt für die Texterkennung südasiatischer Schriften die im Rahmen des READ Projekts entwickelte Plattform Transkribus. Verschiedene Datenmodelle für die Texterkennung der Devanāgarī-Schrift wurden mit Transkribus trainiert und liefern mit einer Character Error Rate (CER) von ca. 2,3 % sehr gute Erkennungsergebnisse. Diese Datenmodelle basieren auf sogenannten Ground Truth Transkriptionen. Das sind 1:1 Abschriften des Textes auf dem Dokumentfaksimile.

Der FID4SA hat mit FID4SA@heiDATA ein Dataverse für die Archivierung von Ground Truth Daten für südasiatische Schriften eingerichtet. Interessierte Wissenschaftler:innen können die dort archivierten Daten herunterladen und als Trainingsdaten für eigene Texterkennungsmodelle nachnutzen. Gleichzeitig sind Wissenschaftler:innen, die sich mit der Texterkennung für südasiatische Schriften befassen, eingeladen, dieses Archiv für die Bereitstellung ihrer eigenen Ground Truth Daten zu nutzen und zum Aufbau eines Ground Truth Daten Archivs an zentraler Stelle beizutragen.

 

Zu FID4SA@heiDATA - Ground Truth Data for HTR on South Asian Scripts