5. Datadokumentation
Læringsmål
Når du har gennemført denne lektion, vil du være i stand til at:
- forstå, hvad dokumentation er, og hvorfor det er vigtigt
- forklare, hvad metadata er
- reflektere over, hvordan du dokumenterer dit projekt, så det kan gentages af andre.
____________________________________________________________
Hvorfor er god datadokumentation vigtig?
Som vi lærte i lektion 2 om forskningsdata, findes der forskellige typer og omfang af forskningsdata, fra små kvalitative datasæt indhentet via nogle få interviews og præsenteret i en enkelt tekstfil, til meget store datasæt med kvantitative gensekvensdata gemt i databaser. Fælles for disse forskellige datasæt er, at de skal være velbeskrevne med kontekstuel information. Uden kontekstuel information vil andre, herunder du selv, ikke være i stand til at forstå, hvad dataene beskriver, hvornår og hvor dataene blev oprettet, hvordan dataene blev indsamlet og til hvilket formål. Med andre ord, uden kontekstuel information er data meningsløse.
Når du har en god strategi for at dokumentere dit projekt og dine data, sikrer du, at du stadig kan forstå dine data i fremtiden, så du kan vende tilbage til dine dataindsamlingsmetoder, gennemgå den bearbejdning, du har foretaget, eller genfinde andre vigtige oplysninger, hvis du skulle få brug for det. Det kan være, at du bliver kontaktet af medstuderende med spørgsmål til dit projekt eller en vejleder, der gerne vil vide, om du har fulgt et bestemt sæt retningslinjer. Det kan også være, at korrekturlæseren af dit speciale eller din artikel har spørgsmål til din statistik eller variabeletiketterne i dit datasæt. God dokumentation giver dig mulighed for at fremskaffe beviser for dit arbejde og give andre indsigt i dit projekt. Du eller andre vil også kunne genbruge dine data i nye projekter.
____________________________________________________________
Hvordan og hvad skal man dokumentere?
Hvilken type dokumentation du skal have i dit projekt, afhænger af, hvilken type forskning du laver, og hvilken type data du indsamler.
Eksempler på dokumentation
|
Det er op til dig at afgøre, hvilken dokumentation der er relevant for din projekttype. Tommelfingerreglen er, at du som minimum skal have alle de dokumenter, der er nødvendige for, at nogen kan gentage dit projekt. Dokumenterne bør beskrives på en sådan måde, at andre forstår dem. Så brug et klart sprog, undgå ikke-standardiserede forkortelser, hold dig til terminologi, der almindeligvis bruges inden for dit forskningsfelt, giv dine dokumenter logiske filnavne, sørg for at tilføje datoer osv.
Dokumentation bør opbevares et sted, hvor du (og evt. andre) kan finde dem igen. Opbevar så vidt muligt din projektdokumentation på samme sted som dine data med tydelige referencer til de datasæt, den refererer til. Vær dog opmærksom på, at dokumentation og data nogle gange ikke kan opbevares på samme sted, særligt når dokumentation kan føre til identifikation af menneskelige deltagere i dit projekt.
Endelig kan en datamanagementplan bruges som et masterdokument til at holde styr på alle de forskellige forskningsrelaterede dokumenter, hvis du sørger for at henvise til alle dine dokumenter i DMP'en.
Metadata
"Datadokumentation" er et bredt begreb, der omfatter alle former for information og materialer, der beskriver og forklarer både data og det forskningsprojekt, hvor data indsamles. Metadata er en vigtig del af datadokumentationen. Metadata er data om data, eller med andre ord information, der beskriver, forklarer, lokaliserer eller på anden måde giver kontekst til data.
Lad os tage et eksempel på metadata i forbindelse med musiktjenesten Spotify:
|
Ligesom i Spotify-eksemplet er det primære formål med metadata i forskning at lette organisering, fremsøgning og håndtering af forskningsdata. Metadata giver vigtige oplysninger om attributter, der gør det muligt for andre at forstå og bruge dataene effektivt.
Vi skelner mellem forskellige typer metadata, herunder:
- Administrative metadata: metadata, der giver oplysninger om dataenes oprindelse og kilde og er relevante for håndteringen af dataene. Eksempler kan være navn på projektleder, finansieringskilde, projektperiode, kontaktoplysninger, projektoplysninger, dataindsamlingsdatoer, dataadgangsbegrænsninger.
- Strukturelle metadata: metadata, der giver oplysninger om dataenes organisering, relationer og interne struktur. Eksempler kan være filformat, måleenhed, stikprøvestørrelse, datasætversion, kategorier og variabler.
- Beskrivende metadata: metadata, der giver oplysninger om indhold, kontekst og karakteristika, og som gør det muligt for andre at søge efter og finde data. Eksempler kan være datasættets titel, dataenes ophavsperson, nøgleord, der beskriver dataene, resumé og link til dataene.
Standarder for metadata
Når du beskriver dine forskningsdata, skal du så vidt muligt holde dig til almindelig praksis inden for din forskningsdisciplin. Dette vil hjælpe andre (herunder dig) med at forstå dataene og eventuelt genbruge dem i nye projekter. Standarder for metadata er vejledninger til de metadatabeskrivelser, der er aftalt inden for dit forskningsområde. Det kan være vejledninger til at beskrive, hvilke metadata der skal medtages i din databeskrivelse. Når du f.eks. bruger metadatastandarden Dublin Core til at beskrive et digitalt objekt som f.eks. et foto, betyder det, at du som minimum medtager oplysninger om ophavsperson, format og dato (som er 3 af de 15 metadataelementer i Dublin Core). Når du gennemfører undersøgelser eller foretager observationer i sociale, adfærdsmæssige, økonomiske og sundhedsmæssige undersøgelser, kan du for eksempel vælge at overholde Data Documentation Initiative (DDI) for at standardisere genereringen af din kodebog/dine kodebøger. Læs mere om, hvordan du anvender metadatastandarder i denne nyttige vejledning fra KU Leuven
Links to an external site.. Tal med din vejleder og drøft, om det giver mening for dig at bruge en metadatastandard til at beskrive dine data med.
ReadMe-filer
Metadata kan genereres automatisk. Når du f.eks. udfylder en onlineformular for at uploade data til et datarepositorium (se lektion 7 "Deling af data"), sørger datarepositoriet for, at oplysningerne i formularen præsenteres som metadata i dataposten. Når du bruger udstyr til at generere data (f.eks. et videokamera eller laboratorieudstyr), tilføjer udstyret automatisk metadata såsom dato og klokkeslæt til din datafil.
Du kan dog også tilføje metadata manuelt, f.eks. ved at bruge en supplerende fil, som du opbevarer sammen med datasættet. En sådan fil kan være en ReadMe-fil. En ReadMe-fil er et simpelt tekstdokument (ofte kaldet ReadMe.txt eller ReadMe.md), der er knyttet til et datasæt, et softwareprojekt eller en samling af filer. Formålet med en ReadMe-fil er at give vigtige oplysninger om indholdet, brugen og konteksten af dataene eller projektet. Den fungerer som en hurtig referenceguide til dig selv og andre i fremtiden om, hvordan man forstår og navigerer i datasættet eller softwaren.
Det er en god ide at oprette en ReadMe-fil til alle de datasæt, du opretter, og opbevare den sammen med det datasæt, den refererer til. Du kan bruge en ReadMe-skabelon som denne Download denne. Alternativt kan du oprette din egen ReadMe-fil. Hvis du vælger at lave dine egen ReadMe-fil, bør du inkludere følgende elementer:
- Generel projektinformation: Undersøgelsens titel, involverede personer og deres roller.
- Metodologiske oplysninger: Metoder til dataindsamling og -analyse, instrumentkalibrering osv. Når du beskriver, hvordan dataene blev indsamlet, skal du tilføje oplysninger om kvalifikationskriterier og udvælgelseskriterier. Navngiv og henvis til eventuelle instrumenter, værktøjer, teorier, metodologiske rammer og materialer eller opgaver, du har givet deltagerne som en del af dataindsamlingen. Det er vigtigt at forstå, hvordan du har tilrettelagt din dataindsamling, da konstruktionen af de instrumenter eller værktøjer, du har brugt til at indsamle dataene, kan være årsag til eventuelle fejl, der måtte opstå. Notér, hvem der har indsamlet dataene, og hvornår og hvor de blev indsamlet.
- Procesoplysninger: Lav en meget kort beskrivelse af, hvordan du har behandlet og analyseret dataene. Angiv dataenes format. Angiv den softwareversion, du har brugt, og hvordan du har tilgået softwaren, f.eks. via universitetsbiblioteket. Din adgang til en software kan bestemme, hvilke analyser du kan udføre, og hvor meget data der kan analyseres. Medtag, hvordan du har redigeret og renset dataene og eventuelle statistikker, du har brugt. Beskriv kodningen, hvordan åbne spørgsmål eller observationer blev kodet, og hvilke kvalitetsvurderingsprocedurer, om nogen, du har anvendt.
- Dataspecifikke oplysninger: Angiv variabelnavnene og deres definitioner, måleenheder, kolonneoverskrifter i et Excel-ark, indstillings- og opløsningsoplysninger om billeder osv. Beskriv f.eks., hvordan du har defineret og kodet "køn" på deltagerne i dit projekt, og angiv de værdietiketter, du bruger til at skelne mellem kønsegenskaber som mand, kvinde og flydende kønsidentitet og endelig svarkoderne for databehandling, 1 = mand, 2 = kvinde, 3 = flydende kønsidentitet. Afhængigt af dataenes følsomhed kan du måske ikke engang dele en metadatabeskrivelse af dataene, da selv denne beskrivelse kan identificere dine deltagere.
- Oplysninger om, hvordan du genbruger og deler dine data: Angiv de rettigheder, andre har til at bruge og dele dataene. Hvis du har givet dine data en brugslicens, skal du sørge for at angive det. Få mere at vide om rettigheder og ansvar i lektion 3, og om hvordan du deler dine data ansvarligt i lektion 7. Opbevar dokumentation for informeret samtykke sammen med din kopi af dataene.
- Oplysninger om bevaring: Angiv formatet på dataene, f.eks. et regneark i CSV-format, en tekstfil, en PDF eller billeder i TIFF-format, samt hvor, hvordan og hvor længe dataene opbevares.
___________________________________________________________
Versionsstyring
Versionsstyring er også en del af dokumentationsprocessen. Versionsstyring er en proces, hvor ændringer af dokumenter, rapporter, bøger, kataloger, computerprogrammer, kode, hjemmesider og meget mere registreres og struktureres. Arbejdet med versionsstyring indebærer, at gamle versioner af filer gemmes og lagres, så intet går tabt, og ændringer kan føres tilbage til en tidligere version, hvis det er nødvendigt. Dette er især vigtigt, når flere personer arbejder på de samme filer. Versionsstyring hjælper dig med at gå tilbage i tiden og se præcis, hvem der skrev hvad på hvilken dag og på hvilket tidspunkt.
Her er fire metoder til versionsstyring:
Metode #1: Brug filnavngivningskonventioner
En filnavngivningskonvention er en systematisk og standardiseret tilgang til konsekvent navngivning af filer. Så i stedet for at navngive filer "endeligendeligversion.doc" skal du beslutte dig for, hvordan du vil navngive dine filer, for eksempel "dato_søgeord_initialer på forfatter_version.format", for eksempel "20240311_effekt af røg på søvn_SDB_V3.xls", hvor dato registreres som ÅÅÅÅMMDD, og at du gemmer en ny version, hver gang du foretager (store) ændringer i dokumentet.
Metode #2: Indsæt versionsstyringstabeller
Indsæt en versionsstyringstabel et sted i dokumentet (ofte på dokumentets forside). Tabellen indeholder en detaljeret beskrivelse af de forskellige versioner af dokumentet, hvilke ændringer der er foretaget, hvem der foretog ændringerne og hvornår.
Version |
Forfatter |
Formål/ændring |
Dato |
1 |
Susanne |
Oprindeligt dokument |
2024.01.03 |
1.1 |
Susanne |
Tabel 1.3 indsat i dokumentet |
2024.01.13 |
1.2 |
Katrine |
Metodebeskrivelse redigeret |
2024.01.30 |
2 |
Susanne |
Ny diskussionssession indsat |
2024.02.15 |
Metode #3: Brug datalagrings- og fildelingssoftware med indbygget versionsstyring
I nogle tilfælde kan fildelings- og samarbejdssoftware registrere ændringer i filer. På KU anbefales det blandt andet, at du bruger Microsoft OneDrive til opbevaring og deling af datafiler (se lektion 6 "Dataopbevaring og sikring"). Microsoft OneDrive indeholder versionsstyring, automatisk registrering af ændringer foretaget i filer og oprettelse af versionshistorik. Brugere kan se og gendanne tidligere versioner af filer.
Metode #4: Brug et versionsstyringsværktøj som Git i kombination med en Git-lagerstyring
Git er en gratis versionsstyringssoftware, der kan bruges via kommandoprompten i Windows eller terminalen på Mac/Linux. Med Git er det muligt for flere personer at arbejde på filer samtidigt, især filer, der indeholder kildekode. Git giver brugerne mulighed for at skubbe og trække oplysninger om kodeændringer til og fra centrale kodelagre såsom GitHub, GitLab eller Bitbucket. Med disse lagre kan du administrere projekter og holde styr på eventuelle ændringer i koden. Du kan finde en vejledning til Git her
Links to an external site.:
____________________________________________________________
Dokumentation i praksis
Lad os se på nogle eksempler på de forskellige datatyper på KU.
Speciale om andelen af unge i parlamenter og politiske partier
Malthe Rugberg Andersen, Det Samfundsvidenskabelige Fakultet, fortæller om vigtigheden af dokumentation, når man arbejder med undersøgelsesdata.
Undertekster: Klik på CC-ikonet og vælg sprog
Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.
Speciale om reduktion af risikofaktorer hos overvægtige gennem vægttab og/eller medicinering
Rasmus Michael Sandsdal, Det Sundhedsvidenskabelige Fakultet, fortæller om dokumentation og filnavngivningskonventioner i sit specialeprojekt, som var en del af et større forskningsprojekt.
Speciale om modellering af kornkvalitet
I sit kandidatprojekt genbrugte Jakob Riber Rasmussen, Det Natur- og Biovidenskabelige Fakultet, allerede eksisterende data produceret af en kommerciel virksomhed, FOSS. Jakob fortæller om vigtigheden af metadata, når man arbejder med data produceret af andre.
____________________________________________________________
Test dig selv
Tjek, om du har fået fat i hovedpunkterne i denne lektion:
____________________________________________________________
Arbejd videre på din DMP
Arbejd videre på dit projekts datamanagementplan (DMP) ved at svare på spørgsmålene i afsnit 5. Datadokumentation:
5.a Beskriv kort dine metoder til indsamling og behandling af dataene/materialet. Hvis der allerede findes en detaljeret metodebeskrivelse, kan du i stedet henvise til den.
5.b Beskriv, hvordan du vil administrere og strukturere dine digitale data/dit materiale, og hvordan du vil navngive dine filer og holde styr på forskellige filversioner.
5.c Beskriv, hvordan du vil dokumentere projektet og dataene. Hvilke oplysninger vil du registrere om dataene og materialet for at sikre, at projektet/dataene/materialet kan forstås af andre?
Hvis du ikke er begyndt at udfylde din DMP endnu, kan du finde DMP-skabelonen her: KU DMP Skabelon for Studerende Download KU DMP Skabelon for Studerende
Husk, at drøfte datamanagementplanen med din vejleder i starten af dit projekt. Opbevar DMP'en sammen med dine data.
____________________________________________________________
Praktiske tip og materiale til datadokumentation
- Brug en datamanagementplan til at beskrive din tilgang til datadokumentation og angive de forskellige dokumenter, du producerer i dit projekt, samt hvor du gemmer dem. Opdater din DMP, hver gang du producerer ny dokumentation. På den måde kommer din DMP til at fungere som en manual for dit projekt. Drøft med din vejleder, om denne skal have adgang til DMP'en. Du kan bruge DMP-skabelonen, der er udviklet til dette kursus: KU DMP Skabelon for Studerende
Download KU DMP Skabelon for Studerende
- Gem din(e) datafil(er) sammen med ReadMe-fil(er), der forklarer datasættet/datasættene. Du kan bruge ReadMe-skabelonen
Download ReadMe-skabelonen, som vi har udviklet til dette kursus (tilpasset fra materiale fra University of Cornell).
- Du kan om nødvendigt bede KU's bibliotek (KUB) om hjælp til at implementere en systematisk tilgang til at organisere dine data, sikre reproducerbarhed af dine data, samt til, hvordan du bedst dokumenterer dit arbejde. KUB Datalab hjælper studerende med at høste, rense, analysere og visualisere data i R, Python, OpenRefine, Excel m.m.. Dets primære fokus er at understøtte ansvarlig anvendelse af digitale værktøjer og metoder i forskning og at tilbyde rådgivning om styrker og svagheder ved disse værktøjer og metoder. Kontakt KUB Datalab via deres hjemmeside
Links to an external site. eller kubdatalab@kb.dk.
- Slå datamanagementtermer op i RDM-ordliste.
____________________________________________________________
Få mere at vide
Nedenfor er angivet nogle eksterne materialer, hvor du kan læse mere om nogle af de emner, der er nævnt i denne lektion.
- Cessda. (u.å.). Dokumentation og metadata – CESSDA-undervisning. Hentet 14. november 2024 fra https://www.cessda.eu/Training/Training-Resources/Library/Data-Management-Expert-Guide/2.-Organise-Document/Documentation-and-metadata Links to an external site.
- Finnish Social Science Data Archive (FSD) (u.å.). Data Description and metadata. Finnish Social Science Data Archive (FSD). Hentet 14. november 2024 fra https://www.fsd.tuni.fi/en/services/data-management-guidelines/data-description-and-metadata/ Links to an external site.
- RDM Support Desk, KU Leuven. (2022, 22. marts). FAQ RDM – Metadata and documentation. Research Data Management. Hentet 14. november 2024 fra https://www.kuleuven.be/rdm/en/FAQ/FAQ_Metadata_and_documentation#What%20is%20a%20README%20file Links to an external site.
- Guidelines for creating a README file - 4tu.federation. (u.å.). Hentet 14. november 2024 fra https://data.4tu.nl/info/fileadmin/user_upload/Documenten/Guidelines_for_creating_a_README_file.pdf Links to an external site.
- How to FAIR. FAIR. (u.å.). Hentet 14. november 2024 fra https://www.howtofair.dk/ Links to an external site._
___________________________________________________________
Publiceret i 2024