An der Campusbibliothek wurde im Februar das Projekt „Altsinica“ eingerichtet, das die Digitalisierung und Kuratierung älterer chinesischer Drucke vorbereiten und Anwendungsmöglichkeiten der Digital Humanities erproben wird. Während des Pilotprojekts sollen Methoden und Werkzeuge identifiziert und getestet werden, die geeignet sind, die wissenschaftliche Auswertung digitaler Texte speziell in komplexen Sprachen zu verbessern.
Das FU-Projekt „Altsinica“ ist auf eine Laufzeit von einem Jahr angelegt und wird aus den Mitteln für Digitalisierungsmaßnahmen aus dem Hochschulvertrag der FU Berlin mit dem Berliner Senat finanziert.
Ausgangslage
Materialgrundlage des Projekts ist eine Auswahl chinesischer Drucke des 17. bis 19. Jahrhunderts im Bestand der Campusbibliothek. Diese „Altsinica“ gelten, ebenso wie Texte in anderen nicht-lateinischen Schriften oder Handschriften, als besonders komplexe Herausforderung für die maschinelle Texterkennung. Die Lückenhaftigkeit und geringe Zuverlässigkeit der mit den gängigen OCR-Methoden erreichbaren Ergebnisse erweisen sich wiederum als gravierendes Hindernis für die wissenschaftliche Auswertung und Textanalyse.
Projektziel
Übergeordnetes Ziel des Projekts „Altsinica“ ist es, digitale Werkzeuge und
Plattformen zu erproben, die die wissenschaftliche Textanalyse von digitalisierten chinesischen Textkorpora ermöglichen. Dabei geht das Projekt von den Altsinica als Anwendungsbeispiel aus. Es nimmt aber auch andere nicht-lateinische Schriften in den Blick, um generische Lösungen für die Tiefenerschließung von Text- und Bilddigitalisaten ohne verfügbares OCR zu finden.
In einem ersten Schritt werden hierzu verschiedene methodische Ansätze der Digitalisierung, Texterkennung, Annotation und Kuratierung miteinander verglichen. Aus dem Altsinica-Bestand werden in einem zweiten Schritt Textbeispiele digitalisiert und Testsets gebildet, um Methoden der Texterkennung und -analyse zu erproben. Abschließend werden die dem Material und den wissenschaftlichen Anforderungen adäquaten Visualisierungsumgebungen untersucht.