Entwicklung eines Open-Science-Indikators am Beispiel des FAIR Data Dashboards der Charité

Autor: Jan Taubitz (ORCID)

Dieser Beitrag zeigt am Beispiel des FAIR Data Dashboards der Charité — Universitätsmedizin Berlin, wie Open-Science-Indikatoren entstehen können. Hierzu greifen eine Reihe von selbst- und weiterentwickelten Datenanalyse- und Datenextraktions-Tools ineinander, um die FAIRness von in Datenrepositorien publizierten Forschungsdaten einer Forschungseinrichtung zu analysieren.

An wen richtet sich dieser Beitrag?

  • An alle, die sich für Open Science Monitoring und die Entwicklung von Open-Science-Indikatoren interessieren.
  • An alle, die sich mit FAIR Data Assessment beschäftigen — insbesondere mit einem automatischem FAIR Data Assessment auf institutioneller Ebene.

Was sind die FAIR Principles?

Die Ausgangssituation

Unser Ziel war klar: Wir wollten im BUA-geförderten Projekt Open Science Dashboards einen Open-Science-Indikator entwickeln, der die Nachnutzbarkeit von Forschungsdaten von Forschenden der Charité anhand der FAIR Principles evaluiert.

Im ersten Schritt mussten wir herausfinden, welche Forschungsdaten überhaupt in öffentlich zugänglichen Datenrepositorien veröffentlicht sind. Hierzu wurde am BIH QUEST Center ein Workflow mit selbst- und weiterentwickelten Tools erstellt, um die in öffentlich zugänglichen Repositorien veröffentlichten Forschungsdaten von Angehörigen der Charité zu ermitteln. Der Workflow startet beim Journal-Artikel. Dieser Startpunkt der Analyse wurde gewählt, da wir nur Forschungsdaten analysieren wollten, die mit einem Forschungs-Output in Form eines Artikels verknüpft sind. Wir waren allerdings auch aus praktischen Gründen angeraten, beim Forschungsartikel zu starten. Für Forschungsartikel existieren eine Vielzahl bibliographischer Datenbanken, in denen nach Artikeln mit Charité-Affiliation gesucht werden kann. Für unser Vorhaben wurden beispielsweise die bibliographischen Meta-Datenbanken Web of Science und Embase verwendet. Für Forschungsdaten ist die Suche in Meta-Datenbanken anhand der Affiliation der Autor*innen bislang nicht zuverlässig möglich, was hauptsächlich daran liegt, dass in den existierenden Datenbanken viele Repositorien noch nicht indexiert werden.

Text Mining der Journal-Artikel mit ODDPub

Um aus der Publikationsliste zu ermitteln, welche Forschungsartikel mit veröffentlichten Forschungsdaten verknüpft sind, wurden mit dem selbstentwickelten R-Package pdfRetrieve zunächst die Volltexte der Publikationen heruntergeladen. Die Volltexte wurden in einem nächsten Schritt mit dem ebenfalls selbstentwickelten Text-Mining-Algorithmus Open Data Detection in Publications (ODDPub) analysiert. ODDPub identifiziert die Data Statements in Artikeln und kennzeichnet diejenigen Publikationen, in denen Hinweise auf Daten-Repositorien und/oder Akzessions-Nummern von Forschungsdaten gegeben sind.

Von ODDPub detektiertes Data Statement (https://doi.org/10.7554/eLife.51156)

ODDPub detektiert zwar ziemlich präzise, ob der Artikel mit Forschungsdaten verknüpft ist. Das Tool zeigt jedoch nicht, mit welchen Forschungsdaten ein Artikel verknüpft ist und es kann nicht erkennen, ob die Forschungsdaten auch tatsächlich von den Autor*innen des Artikels erstellt wurden oder ob es sich um eine Nachnutzung von Forschungsdaten handelt, was wir in unserer Analyse nicht berücksichtigen wollten.

Manuelles Screening der Data Statements und Journal-Artikel mit Numbat

Um die durch ODDPub ermittelten Data Statements zu validieren, kommt ein weiteres Tool zum Einsatz. Es handelt sich um Numbat. Es ist ein Screening Tool, das ursprünglich für die Extraktion von Daten aus Primärquellen oder Artikeln beispielsweise für Systematic Reviews und andere Übersichtsarbeiten programmiert wurde. Mit einigen Anpassungen konnte es jedoch für unsere Zwecke genutzt werden. Durch einen manuellen Fragepfad kann mit Numbat zuverlässig ermittelt werden, ob es sich bei den im Artikel zitierten Forschungsdaten um selbsterstellte Forschungsdaten handelt und welche IDs diese Forschungsdaten haben. Der Nachteil von Numbat ist sicherlich, dass es einen hohen zeitlichen Aufwand verursacht, da es auf einem manuellen Screening basiert. Der ODDPub- und Numbat-Workflow ist ausführlich in einem Protokoll auf protocols.io beschrieben.

Am Ende von Numbat und des gesamten Workflows, der mit der Publikationsliste startet, steht eine Liste mit Globally Unique Identifiers (GUIDs: URLs oder DOIs) von in Repositorien veröffentlichten und mit Charité-Autor*innen verknüpften Datensätzen.

FAIR Assessment mit F-UJI

Die IDs können nun auf ihre Nachnutzbarkeit nach den FAIR Principles überprüft werden. Hierzu gibt es eine Reihe von Assessment-Tools, die die Forschungsdaten-IDs als Input nehmen und Metadaten über die Landing Pages der Repositorien und/oder über DataCite abfragen. Mittels der abgefragten Metadaten kann die FAIRness evaluiert werden. Als zuverlässigstes Tool mit der besten Dokumentation und gutem Support hat sich F-UJI herausgestellt, das im Rahmen des FAIRsFAIR-Projekt entstanden ist und nun im FAIR-IMPACT-Projekt weiterentwickelt wird. Es gibt eine Reihe von Tools, die ähnlich funktionieren und vielversprechend sind. Hierzu gehören der FAIR Evaluator oder auch FAIR Enough. F-UJI (und die anderen Tools) sind allerdings für die Analyse einzelner Forschungsdaten konzipiert. Um unsere Liste mit Forschungsdaten abfragen zu können, musste F-UJI zunächst lokal installiert werden. Anschließend konnte über eine API unsere Liste mit den IDs abgefragt werden:

# Function to query local F-UJI server
fuji_local_server <- function(rd_id){
  headers = c(
    `accept` = "application/json",
    `Content-Type` = "application/json")
  
  data <- list(metadata_service_endpoint = "", 
               metadata_service_type = "oai_pmh",
               object_identifier = rd_id,
               test_debug = TRUE,
               use_datacite = TRUE)
  
  res <- httr::POST(url = "http://localhost:1071/fuji/api/v1/evaluate", httr::add_headers(.headers = headers), body = data, encode = "json")  
  
  fuji_local_parsed <- content(res)
  return(fuji_local_parsed)
}

# Query large set of research data ids
fuji_local_list <- map(charite_rd_2020_guid, fuji_local_server)

Der Output von F-UJI ist eine JSON-Datei mit dem FAIR Assessment. Das FAIR Assessment von F-UJI basiert auf den FAIRsFAIR-Metriken, die die abstrakten FAIR Principles zunächst in überprüfbare Metriken und anschließend in durchführbare Tests übertragen.

Der F-UJI-Output wurde noch mit Informationen über die Repositorien angereichert, die re3data (Registry of Research Data Repositories) bereitstellt. Anschließend wurde der Output statistisch analysiert.

Hier der gesamte Workflow in einem High Level Flowchart:

Workflow vom FAIR Data Dashboard

Präsentation der Ergebnisse in einem Dashboard

Das Ergebnis wurde als Teil des Charité Dashboards for Responsible Research veröffentlicht. Im Zentrum steht ein FAIR Score, der die prozentuale Erfüllung der FAIRsFAIR-Metriken abbildet.

Präsentiert werden die Ergebnisse u.a. in einem Sunburst-Chart, der auf einen Blick die Erfüllung und die Gewichtung der einzelnen FAIR Principles darstellt. Das F1-Prinzip („(Meta)data are assigned a globally unique and persistent identifier“) ist beispielsweise mit 8,3% gewichtet, wohingegen das R1-Prinzip („(Meta)data are richly described with a plurality of accurate and relevant attributes“) mit 16,7% in die Gesamtwertung einfließt.

Ausschnitt FAIR Data Dashboard im Charité Dashboard on Responsible Research

Die Ergebnisse der Evaluation können nach Repositoriums-Typ (fachspezifisch oder allgemein) sowie nach den einzelnen Repositorien gefiltert werden. So wird deutlich, dass allgemeine Repositorien wie Figshare oder Zenodo deutlich besser abschneiden als beispielsweise die an der Charité intensiv genutzten fachspezifischen Repositorien des U.S. National Center for Biotechnology Information (NCBI).

Was haben wir durch das FAIR-Assessment gewonnen?

Mit dem FAIR Score können wir die Nachnutzbarkeit von Forschungsdaten auf institutioneller Ebene bewerten. Unseres Wissens gibt es weltweit keine andere Einrichtung, die die FAIRness der von ihren Forschenden publizierten Forschungsdaten evaluiert und offenlegt.

Ein weiterer Vorteil dieser Darstellung ist, dass durch das FAIR Assessment und dessen Visualisierung die FAIR Principles nachvollziehbarer werden und somit Wissen über FAIR Data vermittelt werden kann. Das ist nötig, da unter der Oberfläche des eingängigen Akronyms FAIR die FAIR Principles schnell sehr technisch werden. Das FAIR Data Dashboard zeigt die hinter den FAIR Principles liegenden deutlich konkreteren FAIRsFAIR-Metriken, was Nutzer*innen des Dashboards über den Aufbau eines FAIR Assessments informiert. Neben dem wissensvermittelnden Aspekt gewinnen wir Informationen über die von an der Charité Forschenden verwendeten Datenrepositorien und deren FAIRness, die für Beratungen und Interventionen eingesetzt werden können.

Der FAIR Score ist zunächst nur eine Nummer, der die Ergebnisse verschiedener Metadaten-Tests zusammenfasst. Ob sich der FAIR Score zur Beschreibung der Nachnutzbarkeit von Forschungsdaten etabliert oder ob sich eine andere (anschaulichere?) Skala durchsetzt, wird sich zeigen.

Hierarchische Darstellung der Metriken im FAIR Data Dashboard

Eine wichtige Einschränkung ist, dass durch das FAIR Assessment ausschließlich die Metadaten der Datensätze untersucht werden. Das heißt, die Qualität der den Forschungsdaten zugrundeliegende Forschung, die tatsächliche Reproduzierbarkeit der Analysen und die Vollständigkeit der Daten kann mit den automatischen Tools nicht überprüft werden. Das ist ein Aspekt, der auch andere Open-Science-Metriken betrifft: Ein grüner oder goldener Open-Access-Status trifft eine Aussage zur Offenheit des Forschungsartikels, aber nicht zu seiner Originalität oder methodischen Genauigkeit.

Das FAIR Data Dashboard und der FAIR Score ist ein Beispiel, wie Open-Science-Indikatoren durch den Einsatz von selbstentwickelten Tools sowie die Nutzung und Weiterentwicklung bestehender Tools entstehen können. Wer Interesse an der Entwicklung eigener Open-Science-Indikatoren hat, der sollte sich unseren Call for Participation ansehen:

Kein Budget für Open Access? Workshop zu Workflows im Rahmen der Budgetentwicklung an Fachhochschulen in Berlin-Brandenburg

Von Daniela Celis Roggendorf

Der Workshop „Workflows im Rahmen der Budgetentwicklung für die Open-Access-Transformation an Fachhochschulen in Berlin und Brandenburg“ fand am 25. November 2021 virtuell statt und wurde im Rahmen des BMBF-Projekt open-access.network vom Helmholtz Open Science Office gemeinsam mit dem Netzwerk von Forschungsreferent*innen an den Fachhochschulen in Berlin und Brandenburg organisiert.[1]
Im Rahmen der Implementierung von Open-Access-Praktiken in den Fachhochschulen gewinnt das Thema Budgetentwicklung und Ressourcenplanung (finanziell sowie personell) an Bedeutung. In diesem Zusammenhang stellt die Kommunikation und die Zusammenarbeit zwischen Forschungsreferent*innen und Bibliotheksmitarbeitenden ein wesentliches Element dar. Dementsprechend ermöglichte der Online-Workshop eine Teilnahme im Tandem-Format, so dass aus jeder Einrichtung jeweils eine Vertreter*in der Bibliothek und der Forschungsadministration eingeladen wurde.

Schima, Juliann (open-access.network): „Workflows im Rahmen der Budgetentwicklung für die Open-Access-Transformation“

Drei Impulsvorträge zu Beginn gaben erste Einblicke in das Thema der Budgetentwicklung und möglicher Diskussionspunkte. Paul Schultze-Motel (Helmholtz Open Science Office / open-access.network) zielte in seinem Vortrag auf eine zentrale Frage hin: Aus welchem Etat werden bzw. sollen die Open-Access-Publikationskosten bezahlt werden?
In einem zweiten Vortrag führte Benjamin Auberer (Universitätsbibliothek der Ludwig-Maximilians-Universität München) Erkenntnisse seiner Masterarbeit „Etatverteilung nach dem DEAL: Ergebnisse einer überregionalen Interviewstudie an Universitätsbibliotheken“ aus.[2] Mit Blick auf die schwankenden Publikationszahlen sind unter anderem die  Flexibilisierung von Etats sowie die Vernetzung innerhalb der Einrichtungen bezüglich der  Budgetverwaltung und des Monitorings notwendig. Er hob die zentrale Stellung der regionalen Vernetzung und die Rolle von Bibliotheken innerhalb von Forschungsprozessen hervor.
Zuletzt beschrieb Günter Mey (Hochschule Magdeburg-Stendal) seine Erfahrungen in der Umsetzung von Open Access an der Hochschule Magdeburg-Stendal. Von Relevanz für den Prozess seien die Unterstützung der Leitungsebene innerhalb der Einrichtung, eine gute Kommunikation zwischen den einzelnen forschungsunterstützenden Abteilungen und den Forschenden, transparente Informationen sowie die Kooperation zwischen verschiedenen Open-Access-Projekten und –Akteur*innen, intern sowie extern.

Im zweiten Teil des Workshops gingen die Hochschulteams in einen fokussierten Austausch.
Die zwei Diskussionsgruppen hielten fest, dass es trotz verschiedener Grade der Implementierung von Open Access an den Einrichtungen viele gemeinsame Erfahrungen gibt. So wird die Open-Access-Transformation an den meisten Fachhochschulen von Forschungsreferent*innen und Bibliothekar*innen als einer von vielen Aufgabenbereichen betreut. Eine zentrale Erkenntnis aus den Arbeitsgruppen ist, dass Open Access dauerhaft in der Struktur der Hochschule verankert sein sollte. In Bezug auf die Budgetentwicklung wurde das Monitoring von Publikationsoutputs als zentral eingeschätzt, um eine Prognose der Publikationskosten erreichen zu können. Für das Monitoring ist der Einsatz von Forschungsinformationssysteme (FIS) von großer Bedeutung, um die Forschungsaktivitäten und -projekte der Hochschulen umfassend offenzulegen. Von hoher Relevanz sind hier Schnittstellen zu anderen Systemen innerhalb der Einrichtung und zu externen Services. So könnte eine Automatisierung von Workflows ermöglicht und Arbeitsaufwände gesenkt werden.

Im Anschluss an die Arbeitsgruppenphase gaben das Open-Access-Büro Berlin (OABB) und die Vernetzungs- und Kompetenzstelle Open Access Brandenburg (VuK) Einblicke in die Arbeitsfelder der beiden Vernetzungsstellen sowie Anknüpfungspunkte für zukünftige Aktivitäten, die die Hochschulen bei der Open-Access-Transformation unterstützen.

Ein Fazit des Workshops: Open Access ist ein Querschnittsthema innerhalb der Einrichtungen und bedarf einer engen Zusammenarbeit zwischen Forschungsreferaten und Bibliotheken. Das Format hat sich als sehr kommunikationsfördernd für den Anstoß und die Weiterentwicklung der Kommunikation zwischen den Vertreter*innen beider Serviceeinheiten erwiesen. Darüber hinaus wird ein konstanter und aktiver Austausch der Fachhochschulen untereinander als wichtig eingeschätzt, um die Open-Access-Transformation zu unterstützen.

Der Workshop ist Teil einer Reihe, die sich dem Schwerpunkt „Budgetentwicklung im Kontext der Open-Access-Transformation“ widmet. Das Angebot wird im Rahmen von open-access.network durch das Helmholtz Open Science Office ausgerichtet. Weitere Informationen finden Sie auf der Homepage von open-access.network.


[1] Eine Veröffentlichung der Erhebungen im Rahmen der Masterarbeit von Benjamin Auberer, „Etatverteilung nach dem DEAL: Ergebnisse einer überregionalen Interviewstudie an Universitätsbibliotheken“ steht gegenwärtig noch aus.
[2] Teilnehmende Fachhochschulen in Berlin und Brandenburg: Alice Salomon Hochschule Berlin, Berliner Hochschule für Technik, Evangelische Hochschule Berlin, Fachhochschule Potsdam, Hochschule für nachhaltige Entwicklung Eberswalde, Hochschule für Wirtschaft und Recht Berlin, Hochschule für Technik und Wirtschaft, Katholische Hochschule für Sozialwesen Berlin, Technische Hochschule Brandenburg, Technische Hochschule Wildau.


Veranstaltungshinweis 16.12.2021: Indikatoren und Incentives für Open Science beim InnoSci Festival „unknOwn unknOwns“

Session 4 am Policy Day des Festivals (16.12.) von 14.45-15.30 Uhr: From Law to Implementation: Recent Practice and Models for Indicators and Incentives for Open Science at Berlin’s Universities and Colleges

Internal evaluations and careers procedures of research institutions are key components for deepening Open Science. We discuss opportunities and hurdles for introducing incentives and ways to sustainably integrate Open Science practices into daily research evaluation. This is particularly relevant because of the amended Berlin Law for Higher Education that invites new approaches regarding Open Science.

Im September hat das Berliner Abgeordnetenhaus eine Novelle des Berliner Hochschulgesetzes (BerlHG) verabschiedet, das derzeit vor allem wegen der Regelung für die Verstetigung von Postdocs auf Qualifizierungsstellen bundesweit diskutiert wird. Mit der Novelle wurde auch das Thema Open Science in §41 Forschungsberichte aufgenommen. Die Hochschulen sollen unter anderem die Anerkennung von Open-Science-Praktiken “bei der Bewertung von Forschungsleistungen im Rahmen ihrer internen Forschungsevaluation und bei Einstellungsverfahren die Anerkennung” fördern (§ 41 (5)). Die Ausgestaltung dieser Vorgabe ist nun Gegenstand eines Aushandlungsprozesses zwischen Land und Hochschulen. Dazu gehört unter anderem die Frage, wie umfangreich die Hochschulen bei der Umsetzung auf Vorarbeiten aufbauen können und wie sie unterstützt werden können.

Hier setzt das Zwiegespräch von Dr. Miriam Kip (Berlin Institute of Health, Charité – Universitätsmedizin Berlin) und Rinze Benedictus (University Medical Center Utrecht) an. In der Veranstaltung geht es um die Vorstellung der bisherigen Praktiken der internen Forschungsbewertung. Dazu wird Miriam Kip Möglichkeiten aufzeigen, z.B. in Berufungsverfahren, bei der intramuralen Vergabe von Fördermitteln oder im Rahmen der Leistungs-orientierten MIttelvergabe die vielfältigen Open Science-Aktivitäten der Forschenden anzuerkennen. Von der Praxis geht es zu Vorbildern, die wir mit Isabella Peters diskutieren wollen. Während eine gesetzliche Verankerung in Berlin noch ein Novum ist, haben sich in Deutschland und im Ausland bereits erste Universitäten und Institute selbst verpflichtet, Open Science in ihre internen Verfahren zur Bewertung und Belohnung von Forschungsleistung aufzunehmen wie jüngst an der Utrecht University. Miriam Kip wird mit dem Gast über good practices und institutionelle Umsetzungsstrategien sprechen, die für die zukünftige Entwicklung in Berlin relevant sind. Das Panel richtet sich sowohl an Vertreter*innen der Hochschulgovernance, an Repräsentant*innen des Abgeordnetenhauses, sowie an  Forschende, Lehrende und den wissenschaftsunterstützenden Bereich. Das Panel wird organisiert vom Centre for Open and Responsible Research (CORe) der Berlin University Alliance und dem Open-Access-Büro Berlin. Im Rahmen der Allianz werden mehrere Projekte gefördert, die neben der Bereitstellung der notwendigen Infrastruktur zur Vertiefung und Ausweitung von Open-Science-Praktiken beitragen, inklusive einer Entwicklung verantwortlicher Indikatoren und disziplinen-sensibler Open-Science-Dashboards im Rahmen eines BUA-geförderten Projekts von Open-Access-Büro Berlin und dem Berlin Institute for Health der Charité – Universitätsmedizin Berlin.

Das Open-Access-Büro Berlin hat im Auftrag einer AG aus Vertreter*innen der Hochschulgovernance sowie des Senats für Wissenschaft und Forschung eine Empfehlung für eine Landesinitiative “Open Research Berlin” erarbeitet. Die Verankerung von Praktiken offener Wissenschaft im BerlHG wird dort als eine Rahmenbedingung formuliert. Wie diese in die Bewertung von Forschungsleistungen einfließen können, soll durch einen partizipativen Prozess der beteiligten Akteur*innen entwickelt werden.