Digitalisierungsprojekt „Altsinica“ startet an der Campusbibliothek

An der Campusbibliothek wurde im Februar das Projekt „Altsinica“ eingerichtet, das die Digitalisierung und Kuratierung älterer chinesischer Drucke vorbereiten und Anwendungsmöglichkeiten der Digital Humanities erproben wird. Während des Pilotprojekts sollen Methoden und Werkzeuge identifiziert und getestet werden, die geeignet sind, die wissenschaftliche Auswertung digitaler Texte speziell in komplexen Sprachen zu verbessern.

Das FU-Projekt „Altsinica“ ist auf eine Laufzeit von einem Jahr angelegt und wird aus den Mitteln für Digitalisierungsmaßnahmen aus dem Hochschulvertrag der FU Berlin mit dem Berliner Senat finanziert.

Ausgangslage

Materialgrundlage des Projekts ist eine Auswahl chinesischer Drucke des 17. bis 19. Jahrhunderts im Bestand der Campusbibliothek. Diese „Altsinica“ gelten, ebenso wie Texte in anderen nicht-lateinischen Schriften oder Handschriften, als besonders komplexe Herausforderung für die maschinelle Texterkennung. Die Lückenhaftigkeit und geringe Zuverlässigkeit der mit den gängigen OCR-Methoden erreichbaren Ergebnisse erweisen sich wiederum als gravierendes Hindernis für die wissenschaftliche Auswertung und Textanalyse.

Projektziel

Übergeordnetes Ziel des Projekts „Altsinica“ ist es, digitale Werkzeuge und
Plattformen zu erproben, die die wissenschaftliche Textanalyse von digitalisierten chinesischen Textkorpora ermöglichen. Dabei geht das Projekt von den Altsinica als Anwendungsbeispiel aus. Es nimmt aber auch andere nicht-lateinische Schriften in den Blick, um generische Lösungen für die Tiefenerschließung von Text- und Bilddigitalisaten ohne verfügbares OCR zu finden.

In einem ersten Schritt werden hierzu verschiedene methodische Ansätze der Digitalisierung, Texterkennung, Annotation und Kuratierung miteinander verglichen. Aus dem Altsinica-Bestand werden in einem zweiten Schritt Textbeispiele digitalisiert und Testsets gebildet, um Methoden der Texterkennung und -analyse zu erproben. Abschließend werden die dem Material und den wissenschaftlichen Anforderungen adäquaten Visualisierungsumgebungen untersucht.

Workshop Report „Non-Latin Scripts in Multilingual Environments: research data and digital humanities in area studies”

This is the English version of the text published in DhDBlog – Digital Humanities im deutschsprachigem Raum: https://dhd-blog.org/?p=10669

Report written by Esther Asef and Dr. Cosima Wagner with contributions by Martin Lee, translation by Sean Nowak

What are the requirements and demands with regard to the design of a (national) research-data infrastructure from a humanities point of view? This question is currently being thoroughly discussed – not least at the DHd Alliance’s initiative – and documented in position papers.[i]

In this context, a workshop – organized by the BMBF research project FDM_OAS-Orient[ii] on 3 July 2018 at Freie Universität Berlin, Campus Library, – addressed matters of research data and digital humanities in area studies and, more specifically, NLS in multilingual environments. 27 researchers, IT and data experts, and librarians came together from all over Germany[iii] to discuss challenges and demands relating to creation, processing, analysis, archiving and re-use of NLS research data in general and, in particular, with regard to the development of a national research-data infrastructure (NFDI).

„Workshop Report „Non-Latin Scripts in Multilingual Environments: research data and digital humanities in area studies”“ weiterlesen