Kategorien: Datenmanagement, Forschungsdaten
Index
Forschungsdatenrichtlinie (research data policy)
Eine Richtlinie zum Umgang mit Forschungsdaten enthält grundsätzliche Leitlinien für eine größere Organisationseinheit, z.B. eine Universität. Neben allgemeinen Handlungsempfehlungen werden darin meist die Verantwortlichkeiten und Unterstützungsstrukturen vor Ort geregelt. Teilweise umfassen die Richtlinien auch Details zu Lizenzierung von und Repositorien für Forschungsdaten.
Die Richtlinie der FAU für digitale Forschungsdaten ist in der jeweils aktuellen Version unter der Adresse https://www.fau.info/fdm-policy zu finden.
Warme Forschungsdaten
Warme Daten werden nur noch selten geändert. Zudem ist es in Ordnung, wenn ein Zugriff (wie z.B. ein ein Kopiervorgang) Zeit in Anspruch nimmt („copy’n’tea“). Warme Daten sind üblicherweise bereits dazu geeignet, in der Arbeitsgruppe oder mit extern Forschenden geteilt zu werden.
Heiße Forschungsdaten
Auf heiße Daten wird mit einer hohen Frequenz zugegriffen, die Daten müssen praktisch sofort für eine Bearbeitung zur Verfügung stehen.
Das bedeutet konkret, dass die Daten häufig verarbeitet werden und dabei auch Änderungen auftreten. Heiße Daten sind idealerweise nah an der Maschine, die sie verarbeitet, damit z.B. Verzögerungen über ein Netzwerk nicht auftreten.
Heiße Forschungsdaten werden nicht veröffentlicht und nur selten mit anderen Personen geteilt. Sind die Daten nicht einfach wiederzubeschaffen, muss die Backup-Strategie auch die heißen Daten umfassen.
Kalte Forschungsdaten
Kalte Daten sind abgeschlossene Datensätze, d.h. sie ändern sich nicht mehr. Üblicherweise sind das Daten, die zusammen mit den beschreibenden Metadaten in Repositorien abgelegt werden (z.B. für eine Veröffentlichung oder Archivierung). Nur kalte Forschungsdaten können eine DOI erhalten.
FAUWissKICloud
Die FAUWissKICloud hat eigens den Zweck die WissKI-Systeme der FAU zu hosten und zu warten. Unter der Obhut des RRZE auf Hardware-Ebene managt das CDI die Software-Ebene des Servers. Mithilfe der WissKI-Distillery werden die WissKIs systemübergreifend gewartet und mit Updates versorgt.
Metadaten
Metadaten beschreiben andere Daten mithilfe von Informationen, die zur Interpretation und (automatischen) Verarbeitung der eigentlichen Daten, etwa der digitalen Forschungsdaten, notwendig oder sinnvoll sind; also ‚Daten über Daten‘.
Dies können elementare Beschreibungen sein wie Länge, Codierung und Typ (Zahl, Zeichenkette, Datum und Uhrzeit, Währungsbetrag usw.). Viel wichtiger sind Metadaten, die dazu beitragen, die Eigenschaften digitaler Objekte zu kategorisieren und zu charakterisieren sowie weiterführende Informationen zur Verfügung zu stellen und somit etwas über deren Bedeutung sagen. Für Messwerte, die in Forschungsdaten vorkommen, sind das beispielsweise: verwendetes Messgerät bzw. verwendeter Sensor, Genauigkeit oder Ort der Messung. Schon die Bezeichnung (der Name) eines Datenobjekts sagt etwas über die Bedeutung, meist genügt das aber noch nicht. Oft sind diese Bezeichnungen zu kurz und zu allgemein (eben nur „Messung“ oder so etwas). Was damit gemeint ist, erschließt sich oft auch erst aus dem Kontext der Verwendung. So entwickeln Forschungsprojekte ihre gebräuchlichen Bezeichnungen, die aber außerhalb des Projekts missverstanden werden können.
Ontologien sind dafür gedacht, solche spezifischen Bezeichnungen in Bezug zu setzen zu einer allgemeinen Begriffssystematik.
WissKI
WissKI ist eine virtuelle Forschungsumgebung, die wissenschaftliches, ortsunabhängiges und kollaboratives Arbeiten mit linked data ermöglicht. Auf Basis einer Ontologie werden die Forschungsdaten semantisch angereichert und in Form von Triples in einem zusammenhängenden Datennetzwerk gespeichert (Graphdatenbank).
Datenmanagementplan
Laut forschungsdaten.info strukturiert ein Datenmanagementplan (DMP) den Umgang mit Forschungsdaten, bzw. deren „Erhebung, Speicherung, Dokumentation, Pflege, Verarbeitung, Weitergabe, Veröffentlichung und Aufbewahrung, ebenso wie die erforderlichen Ressourcen, rechtlichen Randbedingungen und verantwortlichen Personen.“ Ein DMP dokumentiert somit den gesamten, für die Daten vorgesehenen, Lebenszyklus.
Viele Drittmittelgeber (DFG, FWF, SNF, Horizon Europe, Volkswagenstiftung) erwarten für die Vergabe von Mitteln aus bestimmten Förderlinien Angaben zum Umgang mit Forschungsdaten als Teil eines Förderantrags.
Der DMP beschreibt, wie mit den Forschungsdaten von der Planung der Erhebung bis zur langfristigen Archivierung oder gegebenenfalls planmäßigen Löschung umgegangen wird. Er beantwortet dabei mindestens die Fragen:
- Was wird erhoben?
- Welche Stellen müssen vor der Erhebung hinzugezogen werden?
- In welcher Form und wo werden die Forschungsdaten in den unterschiedlichen Projektphasen gesichert?
- Wer hat ab welchem Zeitpunkt darauf Zugriff?
- Wer ist für die einzelnen Schritte zuständig / verantwortlich?
- Welche rechtlichen Vorgaben sind zu beachten? Bereits im Rahmen der Projektbeantragung ist ein DMP sinnvoll und erforderlich.
- Was genau bedeutet das für die Forschung?
Warum dieses Vorgehen sinnvoll und nachhaltig ist, erklärt dieses Video.
Linked Open Data
„Linked Open Data“ (LOD) ist ein Ansatz zur Repräsentation und Publikation von Forschungsdaten. Er setzt sich aus zwei Aspekten zusammen:
- „Linked“: im Zusammenhang stehende, maschinen-lesbare Daten im Internet
- „Open“: die Daten sind frei zugänglich und verteilbar
Es ergibt sich also ein Netz aus Daten, in welchem einzelne Elemente auf Andere verweisen. Einzelne Daten sind über eine URIs abrufbar.
Eine visuelle Repräsentationen findet sich hier.
Repositorium
Ein Repositorium ist ein verwalteter Speicherort für digitale Objekte. Die Sichtbarkeit der digitalen Objekte kann eingeschränkt werden.
Beispiele sind:
- Das institutionelle Repositorium der Universitätsbibliothek, welches Forscher*innen der FAU die kostenfreie Veröffentlichung von Dissertationen und Forschungsarbeiten ermöglicht.
- Das Versionsverwaltungssystem GitLab, welches vom RRZE zur Verfügung gestellt wird.
- CERN bietet mit Zenodo ein weltweit sichtbares Repositorium für Datensätze < 50GB an.
Details unter forschungsdaten.info
