Beskriv dine data så de kan forstås – om at genbruge data

Time (1)-1.png  Tid

Lektionen forventes at tage ca. 20 min. at gennemføre. Dertil kommer refleksionsøvelserne, som du med stor fordel kan lave sammen med dine medstuderende. 

 

Datahåndtering-1.png  Om lektionen 'Beskriv dine data, så de kan forstås – om at genbruge data'

I denne lektion introducerer vi dig til de mange begreber, overvejelser og processer, der er i dokumentation og metadata. Du får en introduktion til, hvad dokumentation kan indebære, og tips til at komme i gang med at skrive din dokumentation. 

Der vil i denne lektion blive nævnt en række begreber, som kan være nye for dig. Du kan se definitioner af begreberne i ordlisten.

 

COBL_learningoutcome_40x40px_2017_15.png Læringsmål

Når du har gennemført lektionen, forventer vi, at du:

  • kan forklare, hvorfor dokumentation af data og datahåndtering er vigtig.
  • kan give eksempler på, hvad denne type dokumentation kan bestå af.

 

image-6aa44c11-c2fb-4522-9aa7-4ffe46537379.png  Kilde

Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023. 

Fagansvarlige:

  • Lorna Wildgaard, ph.d., specialkonsulent, Københavns Universitetsbibliotek (KUB), Forskerservice
  • Asger Væring Larsen, specialkonsulent, Københavns Universitetsbibliotek (KUB), Forskerservice

__________________________________________________________

 

Literature.png  Hvorfor er det vigtigt at dokumentere data?

Hvilken form for information er nødvendig for, at andre – eller du selv om 5-10 år – kan forstå og genbruge data, som du har indsamlet og bearbejdet?

Og hvilken form for dokumentation har du brug for, hvis du vil bruge data, som andre har indsamlet, behandlet og delt? 

At sætte andre i stand til at kunne gentage ens forsøg eller undersøgelser, er en af de vigtigste måder, hvorpå man kan opbygge tillid til resultaternes videnskabelige værdi. Dermed kan andre gennemskue, hvordan man har indsamlet sine data, og måske forsøge at gentage undersøgelsen, analysen, validere arbejdet eller simpelthen stille bedre spørgsmål til resultaterne. God datadokumentation er derfor afgørende for, at forskere og andre professionelle, der arbejder videnskabeligt, kan bygge videre på hinandens arbejde og dermed være bedre til at løse de udfordringer, de arbejder med.

Dokumentation af data skal derfor indeholde oplysninger om, hvad der blev undersøgt, hvordan undersøgelsen blev udført, hvorfor den blev udført, hvornår den blev udført, hvor den blev udført, og hvem der udførte arbejdet.

Som studerende på KU kommer du til at lave bedre opgaver og være skarpere til dine eksaminer, hvis du tager datadokumentation alvorligt – og du træder ind i en stærk videnskabelig tradition, hvor transparens og samarbejde er vigtige elementer.
__________________________________________________________

 

COBL_videolecture_40x40px_2017_4.png  Datadokumentation 

Denne video fra Ghent Universitet forklarer, hvorfor datadokumentation er vigtigt, hvad forskellen er på dokumentation og metadata, og hvilke forskellige typer af dokumentation man bruger i forbindelse med videnskabelige data. 

Videoen nævner kort termen 'FAIR data' (0:47). Termen referer til en række principper for god datadokumentation, der gør videnskabelige data 'findable', 'accessible', 'interoperable' og 'reusable'. Nysgerrige kan læse mere på howtofair.dk Links to an external site.– men det er ikke nødvendigt.

__________________________________________________________

 

Literature.png  Du lærer om datadokumentation ved at vurdere andres data

Mange af de data, du kommer til at arbejde med i løbet af dit studie (især i starten), vil sandsynligvis være data, du får udleveret af din underviser eller  henter på nettet som led i undervisningen. Det er såkaldte “sekundære data”, som andre har produceret, f.eks. dine undervisere, andre forskere, offentlige myndigheder eller organisationer.

Et godt sted at starte, hvis du vil finde datasæt, der er åbent tilgængelige, er på opendata.dk Links to an external site..

Nogle sekundære datasæt, som du kommer til at arbejde med, vil formentlig være dokumenteret på forhånd. Når du læser andres datadokumentation for at vurdere datas validitet og kvalitet, lærer du meget om, hvad god – og dårlig – datadokumentation er. Den erfaring kan du bruge, når du selv skaber data og skal dokumentere formålet og processen.
__________________________________________________________

 

Literature.png  Kom godt i gang med dokumentation

Når du dokumenterer dine data, beskriver du, hvordan du indsamler dine data, hvilke metoder og teorier du anvender, og hvordan du anvender dem, samt hvordan du foretager dine analyser. Formålet er, at andre efterfølgende skal kunne forstå, hvordan du gjorde. Dokumentation omfatter også en beskrivelse af, hvor og hvordan du har opbevaret dine data, og hvordan andre kan få adgang til dem. Når vi taler om ”data” i denne lektion, mener vi din empiri eller evidens, som kan være i form af tal, interviewtekst, noter fra observationer, billeder m.m.

Et godt råd: Skriv din datadokumentation, mens du arbejder med dine data – ikke til slut, når du lægger sidste hånd på din skriftlige opgave. Vi mennesker glemmer utroligt hurtigt de vigtige, små detaljer!

Når du dokumenterer dine data, er målet at give tilstrækkelig information til, at dine medstuderende, underviser eller andre, der er fortrolige med dit felt, men ikke nødvendigvis med dit projekt eller din opgave, er i stand til at forstå dataene, fortolke dem og bruge dem på ny. 

Tilsammen bør den dokumentation, der er knyttet til dit projekt eller din opgave, besvare en række vigtige spørgsmål såsom:

  • Hvilke data eller hvilken evidens indsamler du?  
  • Hvad er konteksten for dataindsamlingen?  
  • Hvordan genererer eller indsamler du dataene?  
  • I hvilken form findes dataene (f.eks. "interviewudskrift")?  
  • Hvordan er dataene formateret, struktureret og organiseret?  
  • Hvordan behandler og analyserer du dataene?  
  • Hvilke etiske eller juridiske betingelser (f.eks. fortrolighed og ophavsret) er der for adgang til/brug/genbrug af dataene? 
     
  Se eksempler på konkrete oplysninger, du kan inkludere i datadokumentation

Afhængigt af dine undersøgelser og konteksten bag skal du muligvis inkludere nogle af de følgende oplysninger:

  • Detaljer om anvendt udstyr, såsom mærke og model, indstillinger og oplysninger om, hvordan det blev kalibreret.
  • Detaljer om anvendte metoder eller teorier, såsom fortolkninger og modeller, og oplysninger om dit perspektiv og din applikation af teorien eller modellen.
  • Teksten til spørgeskemaer, interviewskabeloner, emnevejledninger eller diskursanalyseskema.
  • Detaljer om, hvem der indsamlede dataene og hvornår.
  • Nøgletræk ved metoden, såsom prøvetagningsteknik, om eksperimentet var blindet, og hvordan deltagere blev identificeret og prøvegrupper blev underinddelt.
  • Juridiske og etiske aftaler vedrørende dataene, såsom samtykkeformularer, datalicenser, og godkendelsesdokumenter.
  • Referencer til sekundære data, du har brugt.
  • Detaljer om filformater.
  • En ordliste over anvendte kolonnenavne og forkortelser, der f.eks. definerer, hvilke variable der er i dit datasæt, hvilken måling eller observation der resulterede i en given kolonne, og hvilke måleenheder der blev brugt.
  • Metoder til håndtering af manglende data.
  • Hvilke statistiske analyser du har lavet.
  • Hvordan du har beskrevet dine variable i dit spørgeskema.
  • Den arbejdsgang, du bruger til at behandle dine data, herunder anvendelse af statistiske test eller fjernelse af outliers.
  • Detaljer om den software, der bruges til at generere eller behandle dataene, herunder versionsnummer og platform. 

__________________________________________________________

 

COBL_tasks_40x40px_2017_10.png  Formater til datadokumentation

 Der er forskellige måder, hvorpå du kan dokumentere dine data afhængigt af den kontekst, som de indsamles i: 

  • README-fil: En struktureret tekstfil, hvor du beskriver dit datasæt, og hvordan det blev indsamlet og analyseret. Læs mere om README-filer nedenfor.
  • Elektronisk laboratorie-notesbog: En Elektronisk Lab Notebook (ELN) er en software, der efterligner den traditionelle laboratorienotesbog af papir, som mange forskere bruger i deres daglige arbejde. 
  • Logbog: I en logbog nedfælder du dine observationer, fortolkninger og empiri.
  • Kodebog: I en kodebog beskriver du definitionen af de variabler, du bruger, deres indbyrdes struktur, måleenheder, hvordan du noterer mangler i datasættet, hvis du har slået variabler sammen i nye kategorier, etc.
  • Datafil: Nogle filformater kan registrere information ud over dataindholdet; i billedfiler registreres f.eks. tid, dato, størrelse, eksponeringstid mv. 
  • Separat metadatafil: Nogle discipliner har udviklet specielle filformater til registrering af understøttende information. Der anvendes standardterminologier i databeskrivelsen for at gøre databeskrivelsen maskinlæsbart og dermed ”findable” på internettet. Disse vil du sikkert kun få brug for, hvis du arbejder med data i et rigtigt forskningsprojekt. 

Ofte vælger man et enkelt eller to af ovenstående formater afhængigt af, hvor mange typer af data man har. En README-fil kan være nok til at dokumentere små data med. 

__________________________________________________________

 

Literature.png  Metadata 

Metadata beskriver et datasæts indhold, kontekst og herkomst på en standardiseret og struktureret måde. Typisk beskriver man formål, oprindelse, karakteristika, geografisk placering, forfatterskab, adgang og betingelser og vilkår for brug af et datasæt. Du kender metadata allerede. For eksempel hvordan bøger er beskrevet i et bibliotekskatalog, beskrivelser af produkter på Amazon og beskrivelser af dig på din profil i Absalon. Musiknumre på Spotify har masser af metadata: titel, kunstner, årstal for udgivelsen, længde i minutter osv. 

Metadata kan bruges til at gøre dataene synlige og nemmere at finde for både mennesker og computere på internettet. Maskinlæsbare metadata er afgørende for, at forskningsdatasæt kan søges frem på internettet generelt og i diverse indeks-tjenester som f.eks. opendata.dk Links to an external site.. Gode, maskinlæsbare metadata er dermed en væsentlig komponent i FAIR-principperne Links to an external site., som handler om at gøre forskningsdata lettere at finde og genbruge.

Det er ikke sikkert, at de datasæt, du producerer som studerende, nogensinde havner i et datarepositorie – men nogle af dem gør måske. Et datarepositorie udstiller datasæt på samme måde, som Spotify udstiller musik, så materialet er søgbart, og så man kan læse om, hvad det indeholder. 
__________________________________________________________

 

COBL_tasks_40x40px_2017_10.png  Hvordan skriver du en README-fil?

En 'README'-fil er en almindelig tekstfil, der hedder 'README' for at opmuntre andre til at læse den fil, før de ser på dine data. Selvom en README er fri-tekst, bør filen struktureres i sektioner som en hjælp til læseren. Følgende tabel opsummerer forslag til, hvad du kan inkludere. Hvad du har brug for at beskrive, afhænger af dit projekt eller din opgave, datasættets karakterer og format og den kontekst, dataene blev indsamlet i.  

Vi har udarbejdet et eksempel på en README-fil, Download eksempel på en README-fil, som du kan downloade og bruge til at beskrive dine data. Filen er meget omfattende og skal ses som inspiration. 

Sektion 

Forslag til indhold 

Citationsoplysninger 

Citationsoplysninger er de oplysninger, der er nødvendige for at andre kan citere dit datasæt korrekt: 

  • titlen på datasættet.
  • navnene på de personer, der er ansvarlige for datasættet.
  • år den blev (eller vil blive) offentliggjort.
  • hvor andre kan finde dit datasæt; for eksempel navnet på det repositorie, du har uploadet dine data til, eller den e-mail, andre skal benytte for at kontakte dig og få en kopi af datasættet.  
  • identifikator for datasættet, såsom en Digital Object Identifier (DOI)

Formål

  • kort beskrivelse af opgaven, der sætter datasættet i en kontekst.
  • henvisning til dit projekt eller din opgave, hvor formålet er beskrevet i detaljer. Inkluderer (hvis muligt) en DOI eller et link til en online og åben udgave.  

Metode/teori 

  • en kort beskrivelse af, hvordan du indsamlede dine data. 
  • øvrige informationer, som andre har brug for for at kunne genskabe indsamlingsprocessen eller for at lave en lignende proces.

Sekundære data 

  • Hvis du har brugt sekundære data, skal du angive et datacitat eller en beskrivelse af, hvordan du fik adgang til dataene.  

Arbejdsgang 

Angiv detaljer om de trin, du tog for at behandle dataene: 

  • forberedende trin, såsom hvordan du ryddede op i dit datasæt, og om du skulle omformatere dine data inden analysen.
  • navnet på den software, de tjenester eller de scripts, du har brugt, og hvor de kan findes. 
  • hvordan man installerer/kalder/kører software, tjenester eller scripts. 

samt alle nødvendige indstillinger for softwaren.

Output 

  • Hvis din arbejdsgang genererer hjælpefiler såvel som datafiler, så forklar, hvilke der er hvilke. I nogle statistiske software generes der for eksempel særlige output-filer, som du bedømmer relevant for at kunne arbejde med dit datasæt.
  • Relater output fra din arbejdsgang til de datafiler, du har indsendt eller vil indsende til arkivering. 
  • Hvis det er relevant, giv links til relaterede datasæt, andre dokumenter eller publikationer. 

Dine filer 

  • Angiv navnene på filerne i dit datasæt, en kort beskrivelse af hver, og hvordan de hænger sammen. 

Dit datasæt 

  • Angiv detaljer om, hvordan du fortolker dine datafiler.
  • Forklar, hvilken måling hver kolonneoverskrift repræsenterer. 
  • anvendte måleenheder 
  • definitioner af kategoriske variabelgrupper 
  • forkortelser 
  • nøglen til at identificere manglende data 
  • kodning, begreber eller kontrollerede emneord, der blev anvendt 

Adgang til dine data 

Giv en kort erklæring om de vilkår, som andre må bruge datasættet under. 

  • Hvis relevant, angiv en adgangslicens.

________________________________________________________ 

 

COBL_checkbox_40x40px_2017_3.png  Take home messages

Datadokumentationen bør som nævnt starte i begyndelsen af et projekt og fortsætte gennem hele forløbet. Et sådant arbejdsprincip vil gøre dokumentationen lettere og gøre det mindre sandsynligt, at du senere glemmer detaljerne i hver delproces. Datadokumentation vil også sikre, at du og andre vil være i stand til at fortolke og vurdere dit arbejde – både medstuderende, undervisere, vejledere og censorer.

Hvad du skal inkludere i din dokumentation, afhænger af dit projekt og de datatyper, du indsamler og genererer. Dokumentation kan som beskrevet ovenfor bestå af mange forskellige typer af information om både dit projekt og selve datasættet. Dog inkluderer alle former for dokumentation basale informationer om data, som tillader dataenes korrekte fortolkning og genbrug. Forskellige discipliner foretrækker måske et dokumentationsformat frem for et andet. Du bør sætte dig ind i, hvilke dokumentationsformater der som regel bruges inden for dit fagområde. 

Det er vigtigt, at dokumentationen af dine data er tilgængelig sammen med dit datasæt. Dokumentationen er afgørende for identifikation af dit datasæt og for at forstå, hvilke data du har indsamlet eller skabt, hvornår og hvordan du har gjort det, hvilke variable og værdier, der er i datasættet, samt hvordan man kan få adgang til dine data. Din dokumentation er derfor med til at beskytte din ophavsret, og hvis du uploader dine data til et repositorie, vil dokumentationen bruges til at spore genbrug af dine data.  

Du finder mere information om projektdokumentation og publicering af data i "Research Data Management for studerende"
________________________________________________________ 

  

COBL_onlinediscussion_40x40px_2017_6-1.png  Refleksionsøvelse om metadata

Du kan få en klarere idé om hvad metadata er, ved at kigge nærmere på datakilder, du kender fra din dagligdag.

Undersøg og reflekter over følgende spørgsmål:

  • Hvilke metadata findes der om musiknumre på Spotify, og hvad kan de bruges til?
  • Hvilke metadata findes der på Zalando.dk, og hvad kan de bruges til?
  • Hvilke metadata findes der om billeder på Flickr, og hvad kan de bruges til?
  • Hvilke metadata findes der om bøger i Københavns Universitets bibliotekskatalog, og hvad kan de bruges til?
  • Find et datasæt i OpenData.dk Links to an external site.. Hvilke metadata findes der om datasættet, og hvad kan de bruges til?

________________________________________________________ 

  

COBL_onlinediscussion_40x40px_2017_6-1.png Refleksionsøvelse om egne erfaringer med datadokumentation

Reflekter over følgende spørgsmål:

  • Tænk på et af dine projekter eller opgaver og de data, du arbejdede med. Hvilke former for datadokumentation brugte du eller kunne du have brugt? Hvorfor?
  • Har du nogensinde haft problemer med at forstå eller genbruge andres data på grund af manglende dokumentation?
  • Har du nogensinde haft problemer med at forstå dine egne data på grund af manglende dokumentation?

________________________________________________________ 

 

COBL_fieldtrip_40x40px_2017_8.png  Hvis du vil vide mere

Her finder du en række ressourcer, hvor du selv kan lære mere om dokumentation af data:

README 

Data Dictionaries & Codebooks 

Laboratory Records

Onlinekurser

________________________________________________________