Kategorien: Datenmanagement, Forschungsdaten
Index
Datenpublikation
Für transparente Forschung und Nachvollziehbarkeit der Ergebnisse sollten Forschungsdaten – soweit möglich – veröffentlicht werden. Um die FAIR-Prinzipien zu erfüllen, müssen die entsprechenden Metadaten erfasst werden. Für die Publikation der Forschungsdaten wird ein Repositorium benötigt.
Lizensierung
Die Urheberin oder der Urheber bestimmen, was mit ihren Daten, wenn sie dem Urheberrecht unterliegen, passieren darf. Eine Lizenz beschreibt welches Nutzungsrecht Dritte haben.
Ein Beispiel für eine Lizenz, um die eigene Arbeit frei zugänglich zu machen, ist die Creative Commons Attribution 4.0 International.
Mehr Details finden sich hier.
Urheberrecht
Literarische, künstlerische und wissenschaftliche Werke sind in Deutschland vom Urheberrechtsgesetz geschützt.
Das bedeutet konkret, dass ohne eine entsprechende Lizenz eine Nachnutzung nur restriktiv möglich ist.
Wir empfehlen eine möglichst offene Lizensierung, denn dadurch steigt die Nachnutzung der Daten, was ein Reputationsgewinn für die Forschenden ist. Bei Fragen berät das CDI Sie gerne.
Mehr Details in diesem Artikel.
Nutzungsrecht
Ein Nutzungsrecht beschreibt auf welche Art ein Objekt genutzt werden darf. Beispiele für „Nutzungen“ von digitalen Objekten sind das Kopieren, Speichern oder Veröffentlichen. Die Nutzung kann an Bedingungen geknüpft werden, wie z.B. eine monetäre Gebühr.
Ein Nutzungsrecht zwischen Rechteinhaber und Vertragspartner kann durch eine Lizenz geregelt werden.
European Science Cloud
Die „European Open Science Cloud“ (EOSC) ist ein multi-disziplinärer Informationsdienst, in dem veröffentlicht, nach Daten gesucht und Werkzeuge und Dienstleistungen gefunden werden können. Dieser Dienst ist einer der Leuchtturmprojekte der Europäischen Forschungsförderung. Das Portal ist hier erreichbar.
Personenbezogene Daten
Personenbezogene Daten sind alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Zu beachten ist, dass dies auch gilt, wenn eine Identifikation indirekt möglich ist. Seit dem 25.05.2018 gelten das BDSG-neu (DE) und die DSGVO (EU). Beide Gesetzestexte behandeln Datenschutz und Privatsphäre.
Weitere Informationen zu diesem Thema sind u.a. auf der FAU Seite des Datenschutzes und hier zu finden.
Data Literacy
„Data Literacy“ (de: „Datenkompetenz“) gilt als Schlüsselkompetenz des 21. Jahrhunderts und beschreibt kurz gesagt die Fähigkeit eines Individuums mit Daten umzugehen. Welches Wissen, welche Fähigkeiten und welche Haltung benötigt man in Gesellschaft, Arbeitswelt und Wissenschaft? Die einzelnen Bestandteile dieses Prozesses sind tabellarisch hier aufgelistet. Die Relevanz dieser grundlegenden Datenkompetenz gilt für den gesamten Forschungsprozess von der Erhebung, der Organisation und Nutzung, der Veröffentlichung und der Nachnutzung von Daten.
Folgendes Video veranschaulicht die Bedeutung der Schlüsselkompetenz Data Literacy.
Persistente Identifikatoren (PI)
Ein Persistenter Identifikator (PI) erlaubt eine dauerhafte Adressierung von digitalen Ressourcen. Ein PI stellt einen eindeutigen Namen für digitale Objekte jeglicher Art (Aufsätze, Daten, Software, etc. im Rahnen des Forschungsdatenmanagements vor allem Datensätze) dar. Dieser Name, meist eine längere Abfolge von Ziffern und / oder alphanumerischen Zeichen, wird mit der Web-URL der digitalen Ressource verknüpft. Wenn sich die URL zu der Ressource ändert, muss nur die Adresse geändert werden, auf die der PI verweist, während der PI selbst gleich bleiben kann. Dies garantiert beispielsweise, dass eine einmal über einen PI zitierte Ressource auch dann noch gefunden werden kann, wenn sich ihr physikalischer Speicherort verändert hat. Beispiele für persistente Identifikatoren sind Digital Object Identifier (DOI), Uniform Resource Name (URN) und Handle.
An einem konkreten Beispiel erklärt das verlinkte Video anschaulich, was Persistente Identifikatoren sind.
Datenorganisation
Der Umgang mit Forschungsdaten ist für viele Wissenschaftlerinnen und Wissenschaftler die Grundlage ihrer täglichen Arbeit. Es spart daher Zeit und Aufwand, wenn diese Daten von vorneherein effizient strukturiert, dokumentiert und gesichert werden.
Die meisten Daten werden zunächst in Dateien abgelegt. Dateien haben unterschiedliche Typen oder Dateiformate, die manchmal als Suffix des Dateinamens kenntlich gemacht werden, z.B. im Betriebssystem Windows. Weiterhin werden Dateien in Verzeichnissen (Ordnern) abgelegt. Ganz wichtig ist eine systematische Benennung von Dateien wie auch Verzeichnissen. Hinweise dazu gibt z.B. das Stanford File Naming Handout.
Alternativ können Daten auch in Datenbanken abgelegt werden. Hier ist der Aufwand höher, weil erst ein Datenbank-Management-System wie z.B. MySQL eingerichtet werden muss. Zentral ist die Definition eines Datenbank-Schemas, mit dem die Strukturen für die zu speichernden Daten angelegt werden. Auch hier ist die Namensgebung von großer Bedeutung. Datenbanken unterstützen den geregelten gemeinsamen Zugriff auf Daten sehr viel besser als Dateien. Es gibt verschiedene Arten von Datenbanken: relationale, hierarchische, Graph-basierte, RDF Triple Stores und noch einige weitere mehr.
Folgendes Animationsvideo fasst die Thematik der Datenorganisation anschaulich zusammen.
Langzeitarchivierung
Der Standard für die Aufbewahrungsfrist von Forschungsdaten ist mindestens zehn Jahre [1]. Das stellt sowohl organisatorische, als auch technische Herausforderungen.
Aus der organisatorischen Sicht muss geregelt sein, wer die Verantwortung und Kontrolle über Daten hat, wenn der/die ursprüngliche Besitzer*in die FAU verlässt.
Aus technischer Sicht bedarf es spezialisierter Archivierungssysteme und Plänen, die Datenverlust verhindern. Zudem ist das Dateiformat relevant, da manche Formate sich eventuell nicht mehr öffnen lassen.
[1]: https://forschungsdaten.info/praxis-kompakt/glossar/#c269839
