Beskriv dine data så de kan forstås – om at genbruge data
Tid
Lektionen forventes at tage ca. 20 min. at gennemføre. Dertil kommer refleksionsøvelserne, som du med stor fordel kan lave sammen med dine medstuderende.
Om lektionen 'Beskriv dine data, så de kan forstås – om at genbruge data'
I denne lektion introducerer vi dig til de mange begreber, overvejelser og processer, der er i dokumentation og metadata. Du får en introduktion til, hvad dokumentation kan indebære, og tips til at komme i gang med at skrive din dokumentation.
Der vil i denne lektion blive nævnt en række begreber, som kan være nye for dig. Du kan se definitioner af begreberne i ordlisten.
Læringsmål
Når du har gennemført lektionen, forventer vi, at du:
- kan forklare, hvorfor dokumentation af data og datahåndtering er vigtig.
- kan give eksempler på, hvad denne type dokumentation kan bestå af.
Kilde
Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.
Fagansvarlige:
- Lorna Wildgaard, ph.d., specialkonsulent, Københavns Universitetsbibliotek (KUB), Forskerservice
- Asger Væring Larsen, specialkonsulent, Københavns Universitetsbibliotek (KUB), Forskerservice
__________________________________________________________
Hvorfor er det vigtigt at dokumentere data?
Hvilken form for information er nødvendig for, at andre – eller du selv om 5-10 år – kan forstå og genbruge data, som du har indsamlet og bearbejdet?
Og hvilken form for dokumentation har du brug for, hvis du vil bruge data, som andre har indsamlet, behandlet og delt?
At sætte andre i stand til at kunne gentage ens forsøg eller undersøgelser, er en af de vigtigste måder, hvorpå man kan opbygge tillid til resultaternes videnskabelige værdi. Dermed kan andre gennemskue, hvordan man har indsamlet sine data, og måske forsøge at gentage undersøgelsen, analysen, validere arbejdet eller simpelthen stille bedre spørgsmål til resultaterne. God datadokumentation er derfor afgørende for, at forskere og andre professionelle, der arbejder videnskabeligt, kan bygge videre på hinandens arbejde og dermed være bedre til at løse de udfordringer, de arbejder med.
Dokumentation af data skal derfor indeholde oplysninger om, hvad der blev undersøgt, hvordan undersøgelsen blev udført, hvorfor den blev udført, hvornår den blev udført, hvor den blev udført, og hvem der udførte arbejdet.
Som studerende på KU kommer du til at lave bedre opgaver og være skarpere til dine eksaminer, hvis du tager datadokumentation alvorligt – og du træder ind i en stærk videnskabelig tradition, hvor transparens og samarbejde er vigtige elementer.
__________________________________________________________
Datadokumentation
Denne video fra Ghent Universitet forklarer, hvorfor datadokumentation er vigtigt, hvad forskellen er på dokumentation og metadata, og hvilke forskellige typer af dokumentation man bruger i forbindelse med videnskabelige data.
Videoen nævner kort termen 'FAIR data' (0:47). Termen referer til en række principper for god datadokumentation, der gør videnskabelige data 'findable', 'accessible', 'interoperable' og 'reusable'. Nysgerrige kan læse mere på howtofair.dk Links to an external site.– men det er ikke nødvendigt.
__________________________________________________________
Du lærer om datadokumentation ved at vurdere andres data
Mange af de data, du kommer til at arbejde med i løbet af dit studie (især i starten), vil sandsynligvis være data, du får udleveret af din underviser eller henter på nettet som led i undervisningen. Det er såkaldte “sekundære data”, som andre har produceret, f.eks. dine undervisere, andre forskere, offentlige myndigheder eller organisationer.
Et godt sted at starte, hvis du vil finde datasæt, der er åbent tilgængelige, er på opendata.dk Links to an external site..
Nogle sekundære datasæt, som du kommer til at arbejde med, vil formentlig være dokumenteret på forhånd. Når du læser andres datadokumentation for at vurdere datas validitet og kvalitet, lærer du meget om, hvad god – og dårlig – datadokumentation er. Den erfaring kan du bruge, når du selv skaber data og skal dokumentere formålet og processen.
__________________________________________________________
Kom godt i gang med dokumentation
Når du dokumenterer dine data, beskriver du, hvordan du indsamler dine data, hvilke metoder og teorier du anvender, og hvordan du anvender dem, samt hvordan du foretager dine analyser. Formålet er, at andre efterfølgende skal kunne forstå, hvordan du gjorde. Dokumentation omfatter også en beskrivelse af, hvor og hvordan du har opbevaret dine data, og hvordan andre kan få adgang til dem. Når vi taler om ”data” i denne lektion, mener vi din empiri eller evidens, som kan være i form af tal, interviewtekst, noter fra observationer, billeder m.m.
Et godt råd: Skriv din datadokumentation, mens du arbejder med dine data – ikke til slut, når du lægger sidste hånd på din skriftlige opgave. Vi mennesker glemmer utroligt hurtigt de vigtige, små detaljer!
Når du dokumenterer dine data, er målet at give tilstrækkelig information til, at dine medstuderende, underviser eller andre, der er fortrolige med dit felt, men ikke nødvendigvis med dit projekt eller din opgave, er i stand til at forstå dataene, fortolke dem og bruge dem på ny.
Tilsammen bør den dokumentation, der er knyttet til dit projekt eller din opgave, besvare en række vigtige spørgsmål såsom:
- Hvilke data eller hvilken evidens indsamler du?
- Hvad er konteksten for dataindsamlingen?
- Hvordan genererer eller indsamler du dataene?
- I hvilken form findes dataene (f.eks. "interviewudskrift")?
- Hvordan er dataene formateret, struktureret og organiseret?
- Hvordan behandler og analyserer du dataene?
- Hvilke etiske eller juridiske betingelser (f.eks. fortrolighed og ophavsret) er der for adgang til/brug/genbrug af dataene?
Se eksempler på konkrete oplysninger, du kan inkludere i datadokumentation
Afhængigt af dine undersøgelser og konteksten bag skal du muligvis inkludere nogle af de følgende oplysninger:
- Detaljer om anvendt udstyr, såsom mærke og model, indstillinger og oplysninger om, hvordan det blev kalibreret.
- Detaljer om anvendte metoder eller teorier, såsom fortolkninger og modeller, og oplysninger om dit perspektiv og din applikation af teorien eller modellen.
- Teksten til spørgeskemaer, interviewskabeloner, emnevejledninger eller diskursanalyseskema.
- Detaljer om, hvem der indsamlede dataene og hvornår.
- Nøgletræk ved metoden, såsom prøvetagningsteknik, om eksperimentet var blindet, og hvordan deltagere blev identificeret og prøvegrupper blev underinddelt.
- Juridiske og etiske aftaler vedrørende dataene, såsom samtykkeformularer, datalicenser, og godkendelsesdokumenter.
- Referencer til sekundære data, du har brugt.
- Detaljer om filformater.
- En ordliste over anvendte kolonnenavne og forkortelser, der f.eks. definerer, hvilke variable der er i dit datasæt, hvilken måling eller observation der resulterede i en given kolonne, og hvilke måleenheder der blev brugt.
- Metoder til håndtering af manglende data.
- Hvilke statistiske analyser du har lavet.
- Hvordan du har beskrevet dine variable i dit spørgeskema.
- Den arbejdsgang, du bruger til at behandle dine data, herunder anvendelse af statistiske test eller fjernelse af outliers.
- Detaljer om den software, der bruges til at generere eller behandle dataene, herunder versionsnummer og platform.
__________________________________________________________
Formater til datadokumentation
Der er forskellige måder, hvorpå du kan dokumentere dine data afhængigt af den kontekst, som de indsamles i:
- README-fil: En struktureret tekstfil, hvor du beskriver dit datasæt, og hvordan det blev indsamlet og analyseret. Læs mere om README-filer nedenfor.
- Elektronisk laboratorie-notesbog: En Elektronisk Lab Notebook (ELN) er en software, der efterligner den traditionelle laboratorienotesbog af papir, som mange forskere bruger i deres daglige arbejde.
- Logbog: I en logbog nedfælder du dine observationer, fortolkninger og empiri.
- Kodebog: I en kodebog beskriver du definitionen af de variabler, du bruger, deres indbyrdes struktur, måleenheder, hvordan du noterer mangler i datasættet, hvis du har slået variabler sammen i nye kategorier, etc.
- Datafil: Nogle filformater kan registrere information ud over dataindholdet; i billedfiler registreres f.eks. tid, dato, størrelse, eksponeringstid mv.
- Separat metadatafil: Nogle discipliner har udviklet specielle filformater til registrering af understøttende information. Der anvendes standardterminologier i databeskrivelsen for at gøre databeskrivelsen maskinlæsbart og dermed ”findable” på internettet. Disse vil du sikkert kun få brug for, hvis du arbejder med data i et rigtigt forskningsprojekt.
Ofte vælger man et enkelt eller to af ovenstående formater afhængigt af, hvor mange typer af data man har. En README-fil kan være nok til at dokumentere små data med.
__________________________________________________________
Metadata
Metadata beskriver et datasæts indhold, kontekst og herkomst på en standardiseret og struktureret måde. Typisk beskriver man formål, oprindelse, karakteristika, geografisk placering, forfatterskab, adgang og betingelser og vilkår for brug af et datasæt. Du kender metadata allerede. For eksempel hvordan bøger er beskrevet i et bibliotekskatalog, beskrivelser af produkter på Amazon og beskrivelser af dig på din profil i Absalon. Musiknumre på Spotify har masser af metadata: titel, kunstner, årstal for udgivelsen, længde i minutter osv.
Metadata kan bruges til at gøre dataene synlige og nemmere at finde for både mennesker og computere på internettet. Maskinlæsbare metadata er afgørende for, at forskningsdatasæt kan søges frem på internettet generelt og i diverse indeks-tjenester som f.eks. opendata.dk Links to an external site.. Gode, maskinlæsbare metadata er dermed en væsentlig komponent i FAIR-principperne Links to an external site., som handler om at gøre forskningsdata lettere at finde og genbruge.
Det er ikke sikkert, at de datasæt, du producerer som studerende, nogensinde havner i et datarepositorie – men nogle af dem gør måske. Et datarepositorie udstiller datasæt på samme måde, som Spotify udstiller musik, så materialet er søgbart, og så man kan læse om, hvad det indeholder.
__________________________________________________________
Hvordan skriver du en README-fil?
En 'README'-fil er en almindelig tekstfil, der hedder 'README' for at opmuntre andre til at læse den fil, før de ser på dine data. Selvom en README er fri-tekst, bør filen struktureres i sektioner som en hjælp til læseren. Følgende tabel opsummerer forslag til, hvad du kan inkludere. Hvad du har brug for at beskrive, afhænger af dit projekt eller din opgave, datasættets karakterer og format og den kontekst, dataene blev indsamlet i.
Vi har udarbejdet et eksempel på en README-fil, Download eksempel på en README-fil, som du kan downloade og bruge til at beskrive dine data. Filen er meget omfattende og skal ses som inspiration.
Sektion |
Forslag til indhold |
Citationsoplysninger |
Citationsoplysninger er de oplysninger, der er nødvendige for at andre kan citere dit datasæt korrekt:
|
Formål |
|
Metode/teori |
|
Sekundære data |
|
Arbejdsgang |
Angiv detaljer om de trin, du tog for at behandle dataene:
samt alle nødvendige indstillinger for softwaren. |
Output |
|
Dine filer |
|
Dit datasæt |
|
Adgang til dine data |
Giv en kort erklæring om de vilkår, som andre må bruge datasættet under.
|
________________________________________________________
Take home messages
Datadokumentationen bør som nævnt starte i begyndelsen af et projekt og fortsætte gennem hele forløbet. Et sådant arbejdsprincip vil gøre dokumentationen lettere og gøre det mindre sandsynligt, at du senere glemmer detaljerne i hver delproces. Datadokumentation vil også sikre, at du og andre vil være i stand til at fortolke og vurdere dit arbejde – både medstuderende, undervisere, vejledere og censorer.
Hvad du skal inkludere i din dokumentation, afhænger af dit projekt og de datatyper, du indsamler og genererer. Dokumentation kan som beskrevet ovenfor bestå af mange forskellige typer af information om både dit projekt og selve datasættet. Dog inkluderer alle former for dokumentation basale informationer om data, som tillader dataenes korrekte fortolkning og genbrug. Forskellige discipliner foretrækker måske et dokumentationsformat frem for et andet. Du bør sætte dig ind i, hvilke dokumentationsformater der som regel bruges inden for dit fagområde.
Det er vigtigt, at dokumentationen af dine data er tilgængelig sammen med dit datasæt. Dokumentationen er afgørende for identifikation af dit datasæt og for at forstå, hvilke data du har indsamlet eller skabt, hvornår og hvordan du har gjort det, hvilke variable og værdier, der er i datasættet, samt hvordan man kan få adgang til dine data. Din dokumentation er derfor med til at beskytte din ophavsret, og hvis du uploader dine data til et repositorie, vil dokumentationen bruges til at spore genbrug af dine data.
Du finder mere information om projektdokumentation og publicering af data i "Research Data Management for studerende"
________________________________________________________
Refleksionsøvelse om metadata
Du kan få en klarere idé om hvad metadata er, ved at kigge nærmere på datakilder, du kender fra din dagligdag.
Undersøg og reflekter over følgende spørgsmål:
- Hvilke metadata findes der om musiknumre på Spotify, og hvad kan de bruges til?
- Hvilke metadata findes der på Zalando.dk, og hvad kan de bruges til?
- Hvilke metadata findes der om billeder på Flickr, og hvad kan de bruges til?
- Hvilke metadata findes der om bøger i Københavns Universitets bibliotekskatalog, og hvad kan de bruges til?
- Find et datasæt i OpenData.dk Links to an external site.. Hvilke metadata findes der om datasættet, og hvad kan de bruges til?
________________________________________________________
Refleksionsøvelse om egne erfaringer med datadokumentation
Reflekter over følgende spørgsmål:
- Tænk på et af dine projekter eller opgaver og de data, du arbejdede med. Hvilke former for datadokumentation brugte du eller kunne du have brugt? Hvorfor?
- Har du nogensinde haft problemer med at forstå eller genbruge andres data på grund af manglende dokumentation?
- Har du nogensinde haft problemer med at forstå dine egne data på grund af manglende dokumentation?
________________________________________________________
Hvis du vil vide mere
Her finder du en række ressourcer, hvor du selv kan lære mere om dokumentation af data:
README
- README-skabelonen Download README-skabelonen vil hjælpe dig med at strukturere din beskrivelse af dit datasæt.
- Guidelines for creating a README Links to an external site.- 4tu.federation. (n.d.).
- ICPSR’s Guide to social science data preparation and archiving
Links to an external site. (social science)
Vær opmærksom på afsnittet “Best Practice in Creating Metadata” i forhold til dokumentation.
Data Dictionaries & Codebooks
- Data Ab Initio's Data dictionaries Links to an external site.
- McGill University Health Center's Codebook cookbook: How to enter and document your data Links to an external site.
- ICPSR's What is a codebook? Links to an external site.
Laboratory Records
- Rice Universities Experimental Bioscience’s Guidelines for keeping a laboratory record Links to an external site.
- Colin Purrington's Maintaining a laboratory notebook Links to an external site.
- University of Oregon Harm Lab's Data management in the lab Links to an external site.
Onlinekurser
________________________________________________________