5. Datadokumentation

COBL_learningoutcome_40x40px_2017_15.png  Læringsmål

Når du har gennemført denne lektion, vil du være i stand til at: 

  • forstå, hvad dokumentation er, og hvorfor det er vigtigt
  • forklare, hvad metadata er
  • reflektere over, hvordan du dokumenterer dit projekt, så det kan gentages af andre.

____________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Hvorfor er god datadokumentation vigtig?

Som vi lærte i lektion 2 om forskningsdata, findes der forskellige typer og omfang af forskningsdata, fra små kvalitative datasæt indhentet via nogle få interviews og præsenteret i en enkelt tekstfil, til meget store datasæt med kvantitative gensekvensdata gemt i databaser. Fælles for disse forskellige datasæt er, at de skal være velbeskrevne med kontekstuel information. Uden kontekstuel information vil andre, herunder du selv, ikke være i stand til at forstå, hvad dataene beskriver, hvornår og hvor dataene blev oprettet, hvordan dataene blev indsamlet og til hvilket formål. Med andre ord, uden kontekstuel information er data meningsløse.

Når du har en god strategi for at dokumentere dit projekt og dine data, sikrer du, at du stadig kan forstå dine data i fremtiden, så du kan vende tilbage til dine dataindsamlingsmetoder, gennemgå den bearbejdning, du har foretaget, eller genfinde andre vigtige oplysninger, hvis du skulle få brug for det. Det kan være, at du bliver kontaktet af medstuderende med spørgsmål til dit projekt eller en vejleder, der gerne vil vide, om du har fulgt et bestemt sæt retningslinjer. Det kan også være, at korrekturlæseren af dit speciale eller din artikel har spørgsmål til din statistik eller variabeletiketterne i dit datasæt. God dokumentation giver dig mulighed for at fremskaffe beviser for dit arbejde og give andre indsigt i dit projekt. Du eller andre vil også kunne genbruge dine data i nye projekter.

____________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Hvordan og hvad skal man dokumentere?

Hvilken type dokumentation du skal have i dit projekt, afhænger af, hvilken type forskning du laver, og hvilken type data du indsamler. 

Eksempler på dokumentation

  • Dokumentation, der henviser til etiske eller juridiske godkendelser opnået ved projektets start.
  • Formularer til informeret samtykke, som bevis for, at du har tilladelse til at indsamle personoplysninger fra menneskelige deltagere i dit projekt.
  • Enhver aftale, der er indgået i forbindelse med projektet, hvis du f.eks. samarbejder med en virksomhed.
  • Projektplaner eller protokoller, som beskriver dine metoder.
  • Spørgevejledninger, som bruges til at standardisere eventuelle interviews, der skal gennemføres.
  • Kodebøger, som skitserer procedurer for kodning og kategorisering af data.
  • (Laboratorie)notesbøger, som beskriver dine projekters fremskridt, på papir eller i elektronisk form.
  • Syntaks for software, som dikterer, hvordan kommandoer er struktureret og skrevet i et programmeringssprog eller en softwareapplikation.
  • Dokumentation for udstyr, der anvendes i dit projekt.
  • ReadMe-filer med oplysninger om tilknyttede datafiler, dataformater, variabler osv.
  • Din datamanagementplan, som beskriver, hvordan du planlægger at håndtere data i hele projektet.

Det er op til dig at afgøre, hvilken dokumentation der er relevant for din projekttype. Tommelfingerreglen er, at du som minimum skal have alle de dokumenter, der er nødvendige for, at nogen kan gentage dit projekt. Dokumenterne bør beskrives på en sådan måde, at andre forstår dem. Så brug et klart sprog, undgå ikke-standardiserede forkortelser, hold dig til terminologi, der almindeligvis bruges inden for dit forskningsfelt, giv dine dokumenter logiske filnavne, sørg for at tilføje datoer osv.

Dokumentation bør opbevares et sted, hvor du (og evt. andre) kan finde dem igen. Opbevar så vidt muligt din projektdokumentation på samme sted som dine data med tydelige referencer til de datasæt, den refererer til. Vær dog opmærksom på, at dokumentation og data nogle gange ikke kan opbevares på samme sted, særligt når dokumentation kan føre til identifikation af menneskelige deltagere i dit projekt.

Endelig kan en datamanagementplan bruges som et masterdokument til at holde styr på alle de forskellige forskningsrelaterede dokumenter, hvis du sørger for at henvise til alle dine dokumenter i DMP'en.

Metadata

"Datadokumentation" er et bredt begreb, der omfatter alle former for information og materialer, der beskriver og forklarer både data og det forskningsprojekt, hvor data indsamles. Metadata er en vigtig del af datadokumentationen. Metadata er data om data, eller med andre ord information, der beskriver, forklarer, lokaliserer eller på anden måde giver kontekst til data.

Lad os tage et eksempel på metadata i forbindelse med musiktjenesten Spotify:

image.png På Spotify er metadata de oplysninger, der ledsager og beskriver de musiknumre, der er tilgængelige på platformen ("dataene" i dette eksempel). Metadata om en sang kan omfatte sangtitel, kunstnernavn, oplysninger om det album, sangen er fra, genre, nummerets varighed, eksplicitte indholdstags, producere, sangens sprog m.m. Alle disse metadata bidrager tilsammen til en lytters forståelse af sangen. Derudover giver metadata Spotify-brugere mulighed for at søge efter specifikke sange og kunstnere og finde ny musik baseret på metadatabeskrivelser om genre.   

Ligesom i Spotify-eksemplet er det primære formål med metadata i forskning at lette organisering, fremsøgning og håndtering af forskningsdata.  Metadata giver vigtige oplysninger om attributter, der gør det muligt for andre at forstå og bruge dataene effektivt.

Vi skelner mellem forskellige typer metadata, herunder:

  1. Administrative metadata: metadata, der giver oplysninger om dataenes oprindelse og kilde og er relevante for håndteringen af dataene. Eksempler kan være navn på projektleder, finansieringskilde, projektperiode, kontaktoplysninger, projektoplysninger, dataindsamlingsdatoer, dataadgangsbegrænsninger.
  2. Strukturelle metadata: metadata, der giver oplysninger om dataenes organisering, relationer og interne struktur. Eksempler kan være filformat, måleenhed, stikprøvestørrelse, datasætversion, kategorier og variabler.
  3. Beskrivende metadata: metadata, der giver oplysninger om indhold, kontekst og karakteristika, og som gør det muligt for andre at søge efter og finde data. Eksempler kan være datasættets titel, dataenes ophavsperson, nøgleord, der beskriver dataene, resumé og link til dataene.

Standarder for metadata

Når du beskriver dine forskningsdata, skal du så vidt muligt holde dig til almindelig praksis inden for din forskningsdisciplin. Dette vil hjælpe andre (herunder dig) med at forstå dataene og eventuelt genbruge dem i nye projekter. Standarder for metadata er vejledninger til de metadatabeskrivelser, der er aftalt inden for dit forskningsområde. Det kan være vejledninger til at beskrive, hvilke metadata der skal medtages i din databeskrivelse. Når du f.eks. bruger metadatastandarden Dublin Core til at beskrive et digitalt objekt som f.eks. et foto, betyder det, at du som minimum medtager oplysninger om ophavsperson, format og dato (som er 3 af de 15 metadataelementer i Dublin Core). Når du gennemfører undersøgelser eller foretager observationer i sociale, adfærdsmæssige, økonomiske og sundhedsmæssige undersøgelser, kan du for eksempel vælge at overholde Data Documentation Initiative (DDI) for at standardisere genereringen af din kodebog/dine kodebøger. Læs mere om, hvordan du anvender metadatastandarder i denne nyttige vejledning fra KU Leuven Links to an external site.. Tal med din vejleder og drøft, om det giver mening for dig at bruge en metadatastandard til at beskrive dine data med.  

ReadMe-filer

Metadata kan genereres automatisk. Når du f.eks. udfylder en onlineformular for at uploade data til et datarepositorium (se lektion 7 "Deling af data"), sørger datarepositoriet for, at oplysningerne i formularen præsenteres som metadata i dataposten. Når du bruger udstyr til at generere data (f.eks. et videokamera eller laboratorieudstyr), tilføjer udstyret automatisk metadata såsom dato og klokkeslæt til din datafil. 

Du kan dog også tilføje metadata manuelt, f.eks. ved at bruge en supplerende fil, som du opbevarer sammen med datasættet. En sådan fil kan være en ReadMe-fil. En ReadMe-fil er et simpelt tekstdokument (ofte kaldet ReadMe.txt eller ReadMe.md), der er knyttet til et datasæt, et softwareprojekt eller en samling af filer. Formålet med en ReadMe-fil er at give vigtige oplysninger om indholdet, brugen og konteksten af dataene eller projektet. Den fungerer som en hurtig referenceguide til dig selv og andre i fremtiden om, hvordan man forstår og navigerer i datasættet eller softwaren.

Det er en god ide at oprette en ReadMe-fil til alle de datasæt, du opretter, og opbevare den sammen med det datasæt, den refererer til. Du kan bruge en ReadMe-skabelon som denne Download denne. Alternativt kan du oprette din egen ReadMe-fil. Hvis du vælger at lave dine egen ReadMe-fil, bør du inkludere følgende elementer:

  • Generel projektinformation: Undersøgelsens titel, involverede personer og deres roller. 
  • Metodologiske oplysninger: Metoder til dataindsamling og -analyse, instrumentkalibrering osv. Når du beskriver, hvordan dataene blev indsamlet, skal du tilføje oplysninger om kvalifikationskriterier og udvælgelseskriterier. Navngiv og henvis til eventuelle instrumenter, værktøjer, teorier, metodologiske rammer og materialer eller opgaver, du har givet deltagerne som en del af dataindsamlingen. Det er vigtigt at forstå, hvordan du har tilrettelagt din dataindsamling, da konstruktionen af de instrumenter eller værktøjer, du har brugt til at indsamle dataene, kan være årsag til eventuelle fejl, der måtte opstå. Notér, hvem der har indsamlet dataene, og hvornår og hvor de blev indsamlet.  
  • Procesoplysninger: Lav en meget kort beskrivelse af, hvordan du har behandlet og analyseret dataene. Angiv dataenes format. Angiv den softwareversion, du har brugt, og hvordan du har tilgået softwaren, f.eks. via universitetsbiblioteket. Din adgang til en software kan bestemme, hvilke analyser du kan udføre, og hvor meget data der kan analyseres. Medtag, hvordan du har redigeret og renset dataene og eventuelle statistikker, du har brugt. Beskriv kodningen, hvordan åbne spørgsmål eller observationer blev kodet, og hvilke kvalitetsvurderingsprocedurer, om nogen, du har anvendt. 
  • Dataspecifikke oplysninger: Angiv variabelnavnene og deres definitioner, måleenheder, kolonneoverskrifter i et Excel-ark, indstillings- og opløsningsoplysninger om billeder osv. Beskriv f.eks., hvordan du har defineret og kodet "køn" på deltagerne i dit projekt, og angiv de værdietiketter, du bruger til at skelne mellem kønsegenskaber som mand, kvinde og flydende kønsidentitet og endelig svarkoderne for databehandling, 1 = mand, 2 = kvinde, 3 = flydende kønsidentitet. Afhængigt af dataenes følsomhed kan du måske ikke engang dele en metadatabeskrivelse af dataene, da selv denne beskrivelse kan identificere dine deltagere. 
  • Oplysninger om, hvordan du genbruger og deler dine data: Angiv de rettigheder, andre har til at bruge og dele dataene. Hvis du har givet dine data en brugslicens, skal du sørge for at angive det. Få mere at vide om rettigheder og ansvar i lektion 3, og om hvordan du deler dine data ansvarligt i lektion 7. Opbevar dokumentation for informeret samtykke sammen med din kopi af dataene.  
  • Oplysninger om bevaring: Angiv formatet på dataene, f.eks. et regneark i CSV-format, en tekstfil, en PDF eller billeder i TIFF-format, samt hvor, hvordan og hvor længe dataene opbevares. 

___________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Versionsstyring

Versionsstyring er også en del af dokumentationsprocessen. Versionsstyring er en proces, hvor ændringer af dokumenter, rapporter, bøger, kataloger, computerprogrammer, kode, hjemmesider og meget mere registreres og struktureres. Arbejdet med versionsstyring indebærer, at gamle versioner af filer gemmes og lagres, så intet går tabt, og ændringer kan føres tilbage til en tidligere version, hvis det er nødvendigt. Dette er især vigtigt, når flere personer arbejder på de samme filer. Versionsstyring hjælper dig med at gå tilbage i tiden og se præcis, hvem der skrev hvad på hvilken dag og på hvilket tidspunkt. 

PhDcomics_Finaldoc.jpg

 

Her er fire metoder til versionsstyring:

Metode #1: Brug filnavngivningskonventioner
En filnavngivningskonvention er en systematisk og standardiseret tilgang til konsekvent navngivning af filer. Så i stedet for at navngive filer "endeligendeligversion.doc" skal du beslutte dig for, hvordan du vil navngive dine filer, for eksempel "dato_søgeord_initialer på forfatter_version.format", for eksempel "20240311_effekt af røg på søvn_SDB_V3.xls", hvor dato registreres som ÅÅÅÅMMDD, og at du gemmer en ny version, hver gang du foretager (store) ændringer i dokumentet.

Metode #2: Indsæt versionsstyringstabeller

Indsæt en versionsstyringstabel et sted i dokumentet (ofte på dokumentets forside). Tabellen indeholder en detaljeret beskrivelse af de forskellige versioner af dokumentet, hvilke ændringer der er foretaget, hvem der foretog ændringerne og hvornår.

Version

Forfatter

Formål/ændring

Dato

1

Susanne

Oprindeligt dokument

2024.01.03

1.1

Susanne

Tabel 1.3 indsat i dokumentet

2024.01.13

1.2

Katrine

Metodebeskrivelse redigeret

2024.01.30

2

Susanne

Ny diskussionssession indsat

2024.02.15

 

Metode #3: Brug datalagrings- og fildelingssoftware med indbygget versionsstyring
I nogle tilfælde kan fildelings- og samarbejdssoftware registrere ændringer i filer. På KU anbefales det blandt andet, at du bruger Microsoft OneDrive til opbevaring og deling af datafiler (se lektion 6 "Dataopbevaring og sikring"). Microsoft OneDrive indeholder versionsstyring, automatisk registrering af ændringer foretaget i filer og oprettelse af versionshistorik. Brugere kan se og gendanne tidligere versioner af filer.

Metode #4: Brug et versionsstyringsværktøj som Git i kombination med en Git-lagerstyring
Git er en gratis versionsstyringssoftware, der kan bruges via kommandoprompten i Windows eller terminalen på Mac/Linux. Med Git er det muligt for flere personer at arbejde på filer samtidigt, især filer, der indeholder kildekode. Git giver brugerne mulighed for at skubbe og trække oplysninger om kodeændringer til og fra centrale kodelagre såsom GitHub, GitLab eller Bitbucket. Med disse lagre kan du administrere projekter og holde styr på eventuelle ændringer i koden. Du kan finde en vejledning til Git her Links to an external site.

 

____________________________________________________________

 

COBL_videolecture_40x40px_2017_4.png  Dokumentation i praksis

Lad os se på nogle eksempler på de forskellige datatyper på KU.

Speciale om andelen af unge i parlamenter og politiske partier
Malthe Rugberg Andersen, Det Samfundsvidenskabelige Fakultet, fortæller om vigtigheden af dokumentation, når man arbejder med undersøgelsesdata.

Undertekster: Klik på CC-ikonet og vælg sprog
Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.

 

Speciale om reduktion af risikofaktorer hos overvægtige gennem vægttab og/eller medicinering
Rasmus Michael Sandsdal, Det Sundhedsvidenskabelige Fakultet, fortæller om dokumentation og filnavngivningskonventioner i sit specialeprojekt, som var en del af et større forskningsprojekt.

 

Speciale om modellering af kornkvalitet
I sit kandidatprojekt genbrugte Jakob Riber Rasmussen, Det Natur- og Biovidenskabelige Fakultet, allerede eksisterende data produceret af en kommerciel virksomhed, FOSS. Jakob fortæller om vigtigheden af metadata, når man arbejder med data produceret af andre. 

____________________________________________________________

 

COBL_quiz_40x40px_2017_1.png  Test dig selv

Tjek, om du har fået fat i hovedpunkterne i denne lektion:

Quiz: Datadokumentation

____________________________________________________________

 

COBL_tasks_40x40px_2017_10.png  Arbejd videre på din DMP

Arbejd videre på dit projekts datamanagementplan (DMP) ved at svare på spørgsmålene i afsnit 5. Datadokumentation:

 

5.a Beskriv kort dine metoder til indsamling og behandling af dataene/materialet. Hvis der allerede findes en detaljeret metodebeskrivelse, kan du i stedet henvise til den.

5.b Beskriv, hvordan du vil administrere og strukturere dine digitale data/dit materiale, og hvordan du vil navngive dine filer og holde styr på forskellige filversioner.

5.c Beskriv, hvordan du vil dokumentere projektet og dataene. Hvilke oplysninger vil du registrere om dataene og materialet for at sikre, at projektet/dataene/materialet kan forstås af andre?

 

Hvis du ikke er begyndt at udfylde din DMP endnu, kan du finde DMP-skabelonen her:  KU DMP Skabelon for Studerende Download KU DMP Skabelon for Studerende

Husk, at drøfte datamanagementplanen med din vejleder i starten af dit projekt. Opbevar DMP'en sammen med dine data.

____________________________________________________________

 

COBL_sparks_40x40px_2017_19.png  Praktiske tip og materiale til datadokumentation

  1. Brug en datamanagementplan til at beskrive din tilgang til datadokumentation og angive de forskellige dokumenter, du producerer i dit projekt, samt hvor du gemmer dem. Opdater din DMP, hver gang du producerer ny dokumentation. På den måde kommer din DMP til at fungere som en manual for dit projekt. Drøft med din vejleder, om denne skal have adgang til DMP'en. Du kan bruge DMP-skabelonen, der er udviklet til dette kursus: KU DMP Skabelon for Studerende Download KU DMP Skabelon for Studerende

  2. Gem din(e) datafil(er) sammen med ReadMe-fil(er), der forklarer datasættet/datasættene. Du kan bruge ReadMe-skabelonen Download ReadMe-skabelonen, som vi har udviklet til dette kursus (tilpasset fra materiale fra University of Cornell). 

  3. Du kan om nødvendigt bede KU's bibliotek (KUB) om hjælp til at implementere en systematisk tilgang til at organisere dine data, sikre reproducerbarhed af dine data, samt til, hvordan du bedst dokumenterer dit arbejde. KUB Datalab hjælper studerende med at høste, rense, analysere og visualisere data i R, Python, OpenRefine, Excel m.m.. Dets primære fokus er at understøtte ansvarlig anvendelse af digitale værktøjer og metoder i forskning og at tilbyde rådgivning om styrker og svagheder ved disse værktøjer og metoder. Kontakt KUB Datalab  via deres hjemmeside Links to an external site. eller kubdatalab@kb.dk.

  4. Slå datamanagementtermer op i RDM-ordliste.

____________________________________________________________

 

COBL_fieldtrip_40x40px_2017_8.png  Få mere at vide

Nedenfor er angivet nogle eksterne materialer, hvor du kan læse mere om nogle af de emner, der er nævnt i denne lektion.

___________________________________________________________

Publiceret i 2024