FID4SA-Blog

Neue GT Daten für Bengali auf heiDATA

Avatar of Nicole Merkel-Hilf Nicole Merkel-Hilf - 21. March 2023 - Aktuelles

Unser Ground Truth Datenarchiv für südasiatische Schriften hat erneut Zuwachs bekommen!
Wir haben heute auf unserem FID4SA@heiDATA Dataverse ein neues Ground Truth Datenset für die Bengali Texte veröffentlicht. Die Daten wurden von der British Library und Tom Derrick bereit gestellt.

Der Datensatz umfasst 81 digitalisierte Bilder (TIFF-Dateien) aus einer Auswahl historischer Bengali Bücher (1713-1914), die im Rahmen des Projekts Two Centuries of Indian Print (https://www.bl.uk/projects/two-centuries-of-indian-print) digitalisiert wurden. Außerdem sind für jede Seite Ground Truth Transkriptionen (XML) enthalten, die zum Trainieren von Datenmodellen für die Texterkennung von historischen Bengali-Texten verwendet werden können.

Neben GT Daten für Bengali finden Sie in unserem GT Archiv weitere Daten für südasiatische Schriften. Schauen Sie vorbei!

Die Kommentarfunktion ist für diesen Artikel deaktiviert.

0 Kommentare