Entwicklung eines Open-Science-Indikators am Beispiel des FAIR Data Dashboards der Charité

Autor: Jan Taubitz (ORCID)

Dieser Beitrag zeigt am Beispiel des FAIR Data Dashboards der Charité — Universitätsmedizin Berlin, wie Open-Science-Indikatoren entstehen können. Hierzu greifen eine Reihe von selbst- und weiterentwickelten Datenanalyse- und Datenextraktions-Tools ineinander, um die FAIRness von in Datenrepositorien publizierten Forschungsdaten einer Forschungseinrichtung zu analysieren.

An wen richtet sich dieser Beitrag?

  • An alle, die sich für Open Science Monitoring und die Entwicklung von Open-Science-Indikatoren interessieren.
  • An alle, die sich mit FAIR Data Assessment beschäftigen — insbesondere mit einem automatischem FAIR Data Assessment auf institutioneller Ebene.

Was sind die FAIR Principles?

Die Ausgangssituation

Unser Ziel war klar: Wir wollten im BUA-geförderten Projekt Open Science Dashboards einen Open-Science-Indikator entwickeln, der die Nachnutzbarkeit von Forschungsdaten von Forschenden der Charité anhand der FAIR Principles evaluiert.

Im ersten Schritt mussten wir herausfinden, welche Forschungsdaten überhaupt in öffentlich zugänglichen Datenrepositorien veröffentlicht sind. Hierzu wurde am BIH QUEST Center ein Workflow mit selbst- und weiterentwickelten Tools erstellt, um die in öffentlich zugänglichen Repositorien veröffentlichten Forschungsdaten von Angehörigen der Charité zu ermitteln. Der Workflow startet beim Journal-Artikel. Dieser Startpunkt der Analyse wurde gewählt, da wir nur Forschungsdaten analysieren wollten, die mit einem Forschungs-Output in Form eines Artikels verknüpft sind. Wir waren allerdings auch aus praktischen Gründen angeraten, beim Forschungsartikel zu starten. Für Forschungsartikel existieren eine Vielzahl bibliographischer Datenbanken, in denen nach Artikeln mit Charité-Affiliation gesucht werden kann. Für unser Vorhaben wurden beispielsweise die bibliographischen Meta-Datenbanken Web of Science und Embase verwendet. Für Forschungsdaten ist die Suche in Meta-Datenbanken anhand der Affiliation der Autor*innen bislang nicht zuverlässig möglich, was hauptsächlich daran liegt, dass in den existierenden Datenbanken viele Repositorien noch nicht indexiert werden.

Text Mining der Journal-Artikel mit ODDPub

Um aus der Publikationsliste zu ermitteln, welche Forschungsartikel mit veröffentlichten Forschungsdaten verknüpft sind, wurde das R-Package fulltext genutzt. Damit können Volltexte von abonnementbasierten Artikeln, die von mehreren großen Verlagen via API angeboten werden (z.B. Elsevier, Wiley oder Springer/Nature), sowie Volltexte von Open-Access-Artikeln über die Unpaywall API heruntergeladen werden. Die Volltexte wurden in einem nächsten Schritt mit dem ebenfalls selbstentwickelten Text-Mining-Algorithmus Open Data Detection in Publications (ODDPub) analysiert. ODDPub identifiziert die Data Statements in Artikeln und kennzeichnet diejenigen Publikationen, in denen Hinweise auf Daten-Repositorien und/oder Akzessions-Nummern von Forschungsdaten gegeben sind.

Von ODDPub detektiertes Data Statement (https://doi.org/10.7554/eLife.51156)

ODDPub detektiert zwar ziemlich präzise, ob der Artikel mit Forschungsdaten verknüpft ist. Das Tool zeigt jedoch nicht, mit welchen Forschungsdaten ein Artikel verknüpft ist und es kann nicht erkennen, ob die Forschungsdaten auch tatsächlich von den Autor*innen des Artikels erstellt wurden oder ob es sich um eine Nachnutzung von Forschungsdaten handelt, was wir in unserer Analyse nicht berücksichtigen wollten.

Manuelles Screening der Data Statements und Journal-Artikel mit Numbat

Um die durch ODDPub ermittelten Data Statements zu validieren, kommt ein weiteres Tool zum Einsatz. Es handelt sich um Numbat. Es ist ein Screening Tool, das ursprünglich für die Extraktion von Daten aus Primärquellen oder Artikeln beispielsweise für Systematic Reviews und andere Übersichtsarbeiten programmiert wurde. Mit einigen Anpassungen konnte es jedoch für unsere Zwecke genutzt werden. Durch einen manuellen Fragepfad kann mit Numbat zuverlässig ermittelt werden, ob es sich bei den im Artikel zitierten Forschungsdaten um selbsterstellte Forschungsdaten handelt und welche IDs diese Forschungsdaten haben. Der Nachteil von Numbat ist sicherlich, dass es einen hohen zeitlichen Aufwand verursacht, da es auf einem manuellen Screening basiert. Der ODDPub- und Numbat-Workflow ist ausführlich in einem Protokoll auf protocols.io beschrieben.

Am Ende von Numbat und des gesamten Workflows, der mit der Publikationsliste startet, steht eine Liste mit Globally Unique Identifiers (GUIDs: URLs oder DOIs) von in Repositorien veröffentlichten und mit Charité-Autor*innen verknüpften Datensätzen.

FAIR Assessment mit F-UJI

Die IDs können nun auf ihre Nachnutzbarkeit nach den FAIR Principles überprüft werden. Hierzu gibt es eine Reihe von Assessment-Tools, die die Forschungsdaten-IDs als Input nehmen und Metadaten über die Landing Pages der Repositorien und/oder über DataCite abfragen. Mittels der abgefragten Metadaten kann die FAIRness evaluiert werden. Als zuverlässigstes Tool mit der besten Dokumentation und gutem Support hat sich F-UJI herausgestellt, das im Rahmen des FAIRsFAIR-Projekt entstanden ist und nun im FAIR-IMPACT-Projekt weiterentwickelt wird. Es gibt eine Reihe von Tools, die ähnlich funktionieren und vielversprechend sind. Hierzu gehören der FAIR Evaluator oder auch FAIR Enough. F-UJI (und die anderen Tools) sind allerdings für die Analyse einzelner Forschungsdaten konzipiert. Um unsere Liste mit Forschungsdaten abfragen zu können, musste F-UJI zunächst lokal installiert werden. Anschließend konnte über eine API unsere Liste mit den IDs abgefragt werden:

# Function to query local F-UJI server
fuji_local_server <- function(rd_id){
  headers = c(
    `accept` = "application/json",
    `Content-Type` = "application/json")
  
  data <- list(metadata_service_endpoint = "", 
               metadata_service_type = "oai_pmh",
               object_identifier = rd_id,
               test_debug = TRUE,
               use_datacite = TRUE)
  
  res <- httr::POST(url = "http://localhost:1071/fuji/api/v1/evaluate", httr::add_headers(.headers = headers), body = data, encode = "json")  
  
  fuji_local_parsed <- content(res)
  return(fuji_local_parsed)
}

# Query large set of research data ids
fuji_local_list <- map(charite_rd_2020_guid, fuji_local_server)

Der Output von F-UJI ist eine JSON-Datei mit dem FAIR Assessment. Das FAIR Assessment von F-UJI basiert auf den FAIRsFAIR-Metriken, die die abstrakten FAIR Principles zunächst in überprüfbare Metriken und anschließend in durchführbare Tests übertragen.

Der F-UJI-Output wurde noch mit Informationen über die Repositorien angereichert, die re3data (Registry of Research Data Repositories) bereitstellt. Anschließend wurde der Output statistisch analysiert.

Hier der gesamte Workflow in einem High Level Flowchart:

Workflow vom FAIR Data Dashboard

Präsentation der Ergebnisse in einem Dashboard

Das Ergebnis wurde als Teil des Charité Dashboards for Responsible Research veröffentlicht. Im Zentrum steht ein FAIR Score, der die prozentuale Erfüllung der FAIRsFAIR-Metriken abbildet.

Präsentiert werden die Ergebnisse u.a. in einem Sunburst-Chart, der auf einen Blick die Erfüllung und die Gewichtung der einzelnen FAIR Principles darstellt. Das F1-Prinzip („(Meta)data are assigned a globally unique and persistent identifier“) ist beispielsweise mit 8,3% gewichtet, wohingegen das R1-Prinzip („(Meta)data are richly described with a plurality of accurate and relevant attributes“) mit 16,7% in die Gesamtwertung einfließt.

Ausschnitt FAIR Data Dashboard im Charité Dashboard on Responsible Research

Die Ergebnisse der Evaluation können nach Repositoriums-Typ (fachspezifisch oder allgemein) sowie nach den einzelnen Repositorien gefiltert werden. So wird deutlich, dass allgemeine Repositorien wie Figshare oder Zenodo deutlich besser abschneiden als beispielsweise die an der Charité intensiv genutzten fachspezifischen Repositorien des U.S. National Center for Biotechnology Information (NCBI).

Was haben wir durch das FAIR-Assessment gewonnen?

Mit dem FAIR Score können wir die Nachnutzbarkeit von Forschungsdaten auf institutioneller Ebene bewerten. Unseres Wissens gibt es weltweit keine andere Einrichtung, die die FAIRness der von ihren Forschenden publizierten Forschungsdaten evaluiert und offenlegt.

Ein weiterer Vorteil dieser Darstellung ist, dass durch das FAIR Assessment und dessen Visualisierung die FAIR Principles nachvollziehbarer werden und somit Wissen über FAIR Data vermittelt werden kann. Das ist nötig, da unter der Oberfläche des eingängigen Akronyms FAIR die FAIR Principles schnell sehr technisch werden. Das FAIR Data Dashboard zeigt die hinter den FAIR Principles liegenden deutlich konkreteren FAIRsFAIR-Metriken, was Nutzer*innen des Dashboards über den Aufbau eines FAIR Assessments informiert. Neben dem wissensvermittelnden Aspekt gewinnen wir Informationen über die von an der Charité Forschenden verwendeten Datenrepositorien und deren FAIRness, die für Beratungen und Interventionen eingesetzt werden können.

Der FAIR Score ist zunächst nur eine Nummer, der die Ergebnisse verschiedener Metadaten-Tests zusammenfasst. Ob sich der FAIR Score zur Beschreibung der Nachnutzbarkeit von Forschungsdaten etabliert oder ob sich eine andere (anschaulichere?) Skala durchsetzt, wird sich zeigen.

Hierarchische Darstellung der Metriken im FAIR Data Dashboard

Eine wichtige Einschränkung ist, dass durch das FAIR Assessment ausschließlich die Metadaten der Datensätze untersucht werden. Das heißt, die Qualität der den Forschungsdaten zugrundeliegende Forschung, die tatsächliche Reproduzierbarkeit der Analysen und die Vollständigkeit der Daten kann mit den automatischen Tools nicht überprüft werden. Das ist ein Aspekt, der auch andere Open-Science-Metriken betrifft: Ein grüner oder goldener Open-Access-Status trifft eine Aussage zur Offenheit des Forschungsartikels, aber nicht zu seiner Originalität oder methodischen Genauigkeit.

Das FAIR Data Dashboard und der FAIR Score ist ein Beispiel, wie Open-Science-Indikatoren durch den Einsatz von selbstentwickelten Tools sowie die Nutzung und Weiterentwicklung bestehender Tools entstehen können. Wer Interesse an der Entwicklung eigener Open-Science-Indikatoren hat, der sollte sich unseren Call for Participation ansehen:

Open4DE Spotlight on Finland – An advanced culture of openness shaped by the research community

Authors: Malte Dreyer, Martina Benz and Maike Neufend

Open Access (OA) is developing in an area of tension between institutional and funder policies, the economics of publishing and last but not least the communication practices of research disciplines. In a comparison across European countries, very dynamic and diverse approaches and developments can be observed. Furthermore, this international and comparative perspective helps us to assess the state of open access and open science (OA and OS) in Germany. In this series of Open4DE project blog posts, we will summarize what we have learned in our in-depth conversations with experts on developing and implementing nationwide Open Access strategies.

After starting this series with an article about Lithuania and Sweden, we now continue our journey around the Baltic Sea. Our next stop is Finland:

In a comparison of European Openness strategies, Finland stands out for its sophisticated system of coordinated policy measures. While other countries have a strategy that bundles different aspects of the Openness culture into one central policy, the Finnish model impresses with unity in diversity. The website of the Federation of Finnish Learned Societies, which was set up specifically to provide information on Open Science (OS), lists four national policies on OS and research in Finland. In addition to a policy for data and methods, a policy on open access to scholary publications and a policy on open education and educational ressources document activity at a high level. The openness culture in Finland targets all stages of scientific communication but also teaching and learning. In addition, a national information portal provides orientation on publication venues, projects and publicly funded technical infrastructures. It is an exemplary tool to get an overview of the constantly growing Open Access (OA) and OS ecosystem and its numerous products and projects.

OA&OS-culture in Finland

Such an advanced stage in the development of openness can only be achieved through the persistence of political goals. The basis for this is a political and scientific culture whose fundamental values favour the idea of openness. OS and OA are seen as aspects of a comprehensive, science-ethical framework that unites issues such as internationalisation, gender equality and integrity of science in the term “responsible science”. In its guidelines Responsible conduct of research and procedures for handling allegations of misconduct in Finland the Finnish National Board of Research Integrity (TENK) establishes this connection between responsible conduct in science and openness. The 2012 version which is still valid today states:

2. The methods applied for data acquisition as well as for research and evaluation, conform to scientific criteria and are ethically sustainable. When publishing the research results, the results are communicated in an open and responsible fashion that is intrinsic to the dissemination of scientific knowledge (highlighting by the authors of this article).

“Responsible Science is an umbrella-term. Policy-making under this umbrella is based on the integrity of scientists, not on judicial decisions and laws,” says Sami Niinimäki, contact person for OS at the Finnish Ministry of Science and interview partner of Open4DE. In his role as a counsellor of education in the department of higher education and science policy in the Finnish Ministry of Education and Culture Sami Niinimäki is well-versed in all issues related to science and education, funding and evidence-based policy-making. Quality assurance is also a defining theme for the ministry’s activities, Sami says. We meet via zoom on a Friday at the end of March to talk about Finland’s Open Science policy for an hour. A early spring day in Helsinki, Sami Niinimäki tells about the history of Finnish OS and OA policy-making: 

Data as a starting point

“We started with the data. In other places, it begins with publications but in Finland we invested first in the data infrastructure” says Sami Niinimäki, naming a special feature of the development of OA in Finland right at the beginning of our conversation. First discussions about opening up science date back to the 1990s, when people were aware of the benefits of OA&OS but had not yet pushed ahead with the development at a larger scale. The topic became prominent in the 2000s when the ministry, which at that time was responsible for the system architecture of science communication, realised that open data also represented an exciting field of activity. The first ministerial initiative in this field began at the end of the decade and ran from 2009 to 2014. Among other things, it created the conditions for long-term digital preservation. Together with the open science and research initiative from 2013 to 2017, these programmes created infrastructures, researched scientific cultures and conducted surveys on the maturity of OA and OS developments. Researching the field led to a kind of friendly competition among institutional actors and, at the level of individual institutions, had the positive effect of making their own openness culture thematically and publicly transparent, Sami Niinimäki tells us.

From the Ministry to the Federation of Finnish Learned Societies

The actual policy process, in which research funders, universities, colleges and other institutions work on national policy documents, is today coordinated by the Federation of Finnish Learned Societies, a national co-operative body for learned societies in Finland. According to its own information, the Federation of Finnish Learned Societies has a membership of 293 societies and four academies from all branches of arts and sciences, in total 260 000 individual members, and also supports and develops the role of its members in science policy discussions. Expert groups on science policy issues meet under its umbrella, currently these are “The Committee for Public Information”, “The Finnish Advisory Board on Research Integrity”, which is under the self-governance of the scientific community, and the “Publication Forum”. In addition, the Federation of Finnish Learned Societies is active in creating roadmaps and organises so-called forum meetings. “The change of responsibility for our policy process from the Ministry to the Federation of Finnish Learned Societies was a kind of natural evolution”, Sami Niinimäki points out. But in retrospect, this development made total sense:

“The Federation of Finnish Learned Societies hosts the research integrity board since the 1990s and their work relies on the integrity in the research community: why not include OS in a visible way in the same package? Possibly this happened per accident, but we had to go through these steps to reach a higher maturity level. In the ministry we failed to reach the research community, our audience included the same 400 people we talked to every time and with the Federation, the message reached further audiences, even trade unions.”

The change of responsibilities, the inclusion of new actors and the re-organisation of running processes is nothing new in the eyes of policy research. According to Sybille Münch’s Research on Interpretative Policy-Analysis (2016), policy processes rarely run as smoothly as the theory of the policy cycle suggests. In the Finnish case, however, the change of responsibility seems to have been achieved with little loss: Even more, the linking of the policy process to the research-community has led to productive participation of the target group. A manageable time commitment combined with the prospect of influence motivates stakeholders to this day to help shape policy processes through active committee work, says Sami Niinimäki.

During the interview, we repeatedly learn how important a culture of participation is for the Finnish model. Exemplary is not only the management of the policy process through an organization which represents the interests of scientists, but also the implementation of Plan S, which was informed by an open consultation at the University of Helsinki.

Problems and challenges

Problems do exist, however. In Finland, for example, the implementation of the European guidelines on the secondary publication right has failed – initial attempts in this direction failed in particular because of the resistance of trade union and copyright lobby groups. Sami Niinimäki is convinced that resistance in the community can be broken by communicating the goals clearly – often resistance is caused by misunderstandings. However, Finland compensates the absence of a legal basis by consistency in practicing green OA. “Our goal is to publish national OA journals on a common platform in journal.fi” says Sami Niinimäki.

The important function of repositories in Finland is well known and has attracted attention from German colleagues before. But it is not only the infrastructure that is important: Sami Niinimäki mentions research funding as another important challenge in the implementation of OA. Moreover, ultimatively, it always comes down to the decisions of researchers: “Researchers understand that they have to produce impact and this gives incentives to use open copyright licences.” The fact that it all depends on the scientists also applies to research evaluation, a central field of work for policy-makers as Sami Niinimäki states:

“When you look at all the issues each of them lead to the core of the assessment  problem. This needs to be solved. In Finland we are on a good way, research organisations have signed the DORA-declaration and we have a national policy on research assessment, wich is very much compliant with DORA.”

With the signing of DORA, Finland is a step ahead of Germany: here, only a few research organisations have signed this document. But much more can be done also in Finland. Following Sami Niinimäki, it would be desirable for a peer review to be seen as equivalent to a publication. At the very least, a way should be found to also map these activities in reputation-building metrics. A proposal that not only seems relevant and attractive for Finland. The EU has already taken up this issue, among others in its scoping report on research assessment systems.

Taking stock: what can we learn from Finland?

The Finnish path shows that OA is favoured by a publishing culture in which repository-based OA became the standard early on. Participatory processes also promote acceptance in the long term. The fact that OA and OS are supported by broad acceptance is not least because of the numerous opportunities for participation through which stakeholders can get involved in policy processes. As mentioned above, the formulation and enforcement of the rules of research integrity is in the hands of the Federation of Finnish Learned Societies – an organization representing the scientists. The participatory implementation of PlanS, also mentioned above, is also evidence of a culture of participation. “Starting point is the openness and transparency of science as well as the mutual trust between researchers and research organisations. The model of self-regulation works well in democracies akin to Finland” is written on the webpage of the Finnish National Board on Research Integrity. At the same time, an accompanying, careful regulation is also beneficial, says Sami Niinimäki:

“Research funders can call the play, if research funders show maturity, then the organisations that benefit from their funding also change their culture. It is a domino process. And this dynamic also played out at the European level.”

Whereas in Finland the rule of government is “as much as necessary, as little as possible”, the rule of self-government is “as much as possible, as little as necessary”. This creates a domino effect that develops a momentum of its own. Now, of course, with regard to Germany, the question is which dominoes must fall here in order to further advance the process of conversion to OA. Finland shows that the connection to researchers is of particular importance. In Germany, unfortunately, the professional societies have not yet played a leading role in the conversion to OA. A workshop, which was held with representatives of the professional societies as part of the Open4DE project, showed that the interests and needs of the individual professional societies are also very different.  Last but not least, a representative body similar to the Federation of Finnish Learned Societies is missing here, which would bring these different interests under one roof. However, networking nodes such as the Open Access Network could play a strategically exposed role here. The future will show how feasible the already outlined ways of involving scientists in Germany are.

Literature

Open Science Coordination in Finnland, Federation of Finnished Learned Societies (2020). „Declaration for Open Science and Research (Finnland) 2020–2025.” Accessed June 7, 2022. https://edition.fi/tsv/catalog/view/79/29/192-1.

European Commission (2021). „Directorate-General for Research and Innovation, Towards a reform of the research assessment system: scoping report.” Accessed June 7, 2022. https://data.europa.eu/doi/10.2777/707440.

European University Association asbl. (without year). „The EUA Open Science Agenda 2025.” Accessed June 7, 2022. https://eua.eu/downloads/publications/eua%20os%20agenda.pdf.

Finnish Advisory Board on Research Integrity. „Responsible conduct of research and procedures for handling allegations of misconduct in Finland. Guidelines of the Finnish Advisory Board on Research Integrity 2012.” Accessed June 7, 2022. https://tenk.fi/sites/tenk.fi/files/HTK_ohje_2012.pdf.

Ilva, Jyrki (2020). „Open access on the rise at Finnish universities“. Accessed June 7, 2022. https://blogs.helsinki.fi/thinkopen/oa-statistics-2019/.

National Open Science and Research Steering Group und Science and Research Steering Group (2020). „National Policy and Executive Plan by the Research Community in Finland for 2020–2025.“ Accessed June 7, 2022. https://avointiede.fi/sites/default/files/2020-03/openaccess2019.pdf.

Ministry of Education and Culture (2019). „Atlas of Open Science and Research in Finland 2019 Evaluation of openness in the activities of higher education institutions, research institutes, research-funding organisations, Finnish academic and cultural institutes abroad and learned societies and academies Final report.” Accessed June 7, 2022. https://julkaisut.valtioneuvosto.fi/handle/10024/161990

Morka, Agata and Gatti, Rupert (2021). „Finland“. In Academic Libraries and Open Access Books in Europe: A Landscape Study. PubPub. Accessed June 7, 2022.  https://doi.org/10.21428/785a6451.2da5044f.

Münch, Sybille (2016). „Interpretative Policy-Analyse: eine Einführung. Lehrbuch.” Wiesbaden, doi: 10.1007/978-3-658-03757-4.

Open Science and Research Coordination (2019). „Open Access to Scholarly Publications. National Policy and Executive Plan by the Research Community in Finland for 2020–2025 (1).” Accessed June 7, 2022. https://doi.org/10.23847/isbn.9789525995343.

Ministry of Education and Culture (2014). „Open science and research leads to surprising discoveries and creative insights: Open science and research roadmap 2014–2017.” Accessed June 7, 2022. https://julkaisut.valtioneuvosto.fi/bitstream/handle/10024/75210/okm21.pdf?sequence=1&isAllowed=y.

Pölönen, Janne; Laakso, Mikael; Guns, Raf; Kulczycki, Emanuel and Sivertsen, Gunnar (2020). „Open access at the national level: A comprehensive analysis of publications by Finnish researchers“. In: Quantitative Science Studies, 17, 1–39. Accessed June 7, 2022.  https://doi.org/10/gg927d.