2. Forskningsdata – typer, formater og omfang
Læringsmål
Når du har gennemført denne lektion, vil du være i stand til at:
- identificere forskellige typer data
- forstå, hvordan datatype, filformat og filstørrelse kan påvirke, hvordan du håndterer dine data
- forklare, hvilke datatyper der særligt skal beskyttes, og hvorfor det er vigtigt.
____________________________________________________________
Datatyper
Som nævnt i den foregående lektion er det god praksis at udarbejde en datamanagementplan ved projektstart, da den hjælper dig med at identificere mulige udfordringer på forhånd. Et godt udgangspunkt for at beslutte, hvilken datamanagement-tilgang der skal bruges på dit projekt, er at identificere og beskrive de forskningsdata, du kommer til at arbejde med. Når du beskriver dataene i projektet, kan det være en hjælp at dele dataene op i kategorier. Det kan du gøre på forskellige måder. Nedenfor er tre eksempler:
1. Kvantitative vs. kvalitative data
Du kan dele dine data op i to overordnede kategorier:
- Kvantitative data er data, der kan tælles eller sammenlignes på en numerisk skala, såsom målinger foretaget med laboratorieudstyr, optællinger af det daglige antal besøgende på en udstilling og data fra spørgeskemaundersøgelser om indtægter og udgifter.
- Kvalitative data er ikke-numeriske og beskriver egenskaber eller karakteristika. Eksempler kan være interviewudskrifter, svar på spørgeskemaer med åbne spørgsmål, fotografier eller lydfiler.
2. Kategorisering efter indsamlingsmetode
Du kan også opdele dine data ud fra, hvordan de er indsamlet.
- Observationsdata er data, der indsamles ved at observere en aktivitet, f.eks. føleraflæsninger eller observationer af dyrs eller menneskers adfærd.
- Forsøgsdata er data indsamlet under kontrollerede forhold, ofte ved at manipulere en variabel i en undersøgelse og måle resultatet. Eksempler kan være plantevækstdata under forskellige lysforhold eller en søgeparameter.
- Interviewdata er data, der indsamles ved at stille spørgsmål til (grupper af) enkeltpersoner for at indsamle kvantitative eller kvalitative oplysninger, f.eks. for at undersøge kulturel identitet eller ved måling af brugernes tilfredshed med en bestemt service.
- Simuleringsdata er data, der genereres af computermodeller for at simulere faktiske forhold, såsom økonomiske eller meteorologiske modeller.
- Afledte data er data, der skabes ved at kombinere og behandle eksisterende data, f.eks. gennem tekstmining af litteratur eller datamining af datasæt.
3. Kategorisering efter krævet sikkerhedsniveau (dataklassifikation)
Det er meget vigtigt, at du er i stand til at afgøre, om der er etiske eller juridiske grunde til at være ekstra omhyggelig med at beskytte dine data mod uautoriseret adgang eller tab af data. Det kan være nødvendigt for at beskytte enkeltpersoners privatliv, for at beskytte dyr, økosystemer, sårbare befolkningsgrupper, kulturarv osv., eller fordi der er aftaleforhold, der forhindrer videregivelse af data. Du kan derfor opdele dine data efter det databeskyttelsesniveau, de kræver. Her opdeler vi groft sagt data i to kategorier:
- Data, hvor databeskyttelse er nødvendig af etiske eller juridiske grunde:
Personoplysninger er data, der direkte eller indirekte kan identificere en person.
Fortrolige data er andre data end personoplysninger, der kun bør være tilgængelige for et begrænset antal personer, og hvor utilsigtet eller forsætlig eksponering af disse data kan have betydelige konsekvenser. Eksempler kan være virksomhedsdata, data med kommercielt potentiale, fortrolige myndighedsdata og følsomme biologiske data.
- Data, hvor databeskyttelse ikke er nødvendig af etiske eller juridiske grunde:
Det kan være, at du arbejder på et projekt, hvor der ikke er etiske eller juridiske grunde til at beskytte data, og dataene kan videregives uden negative konsekvenser. Nogle eksempler kan være offentligt tilgængelige datasæt, data præsenteret i videnskabelige publikationer, anonymiserede personoplysninger, ikke-følsomme økonomiske data og arkæologiske data fra undersøgelser, der ikke involverer følsomme kultur- eller kulturarvsoplysninger.
Når du har identificeret det krævede sikkerhedsniveau, er du halvvejs gennem en såkaldt "dataklassifikation". Vi vender tilbage til og uddyber dette koncept i lektion 6 om "dataopbevaring og informationssikkerhed".
____________________________________________________________
Hvorfor er det vigtigt at vurdere datatypen?
Hvorfor er det vigtigt at overveje og beskrive den type data, du kommer til at arbejde med? Det er vigtigt, fordi det er datatypen, der afgør, hvordan du skal håndtere dine data. Her er nogle eksempler:
Eksempel 1. Indsamlings- og dokumentationspraksis kan variere fra datatype til datatype
Hvis du arbejder med kvantitative data, bruger du andre dokumentationsmetoder, end hvis du arbejder med kvalitative data. Du registrerer muligvis dine data i Excel-ark i stedet for i tekstdokumenter.
Eksempel 2. Kravene til brug af data kan variere fra datatype til datatype
Hvis du beslutter dig for at genbruge eksisterende datasæt ("afledte data") frem for at producere dine egne data, skal du i dit projekt undersøge, om dataleverandøren, såsom en virksomhed eller et register, har regler for, hvad du må og ikke må gøre med dataene.
Eksempel 3. De forholdsregler, der skal tages for at lagre data sikkert, kan variere fra datatype til datatype
Hvis du arbejder med personoplysninger, skal du opbevare dataene på en måde, så de er beskyttet mod uautoriseret adgang. Det kræver yderligere sikkerhedsfunktioner såsom datakryptering og lagring på et specifikt drev til følsomme data. Hvis du arbejder med anonymiserede data, behøver du muligvis ikke at kryptere dine data, og dine data kan lagres på et normalt universitetsdrev.
Med andre ord kan den måde, data håndteres på, variere fra studerende til studerende og fra projekt til projekt, afhængigt af typen af data i projektet. Det betyder, at din datamanagementplan (DMP) kan se helt anderledes ud end en anden studerendes eller et andet projekts. Det betyder også, at du skal udarbejde en ny plan, hver gang du starter et projekt.
____________________________________________________________
Andre datakarakteristika: filformat og dataomfang
Ud over datatypen kan formatet på dine digitale filer samt omfanget eller mængden af dine data og fysiske materialer også påvirke, hvordan du arbejder med dine data.
Filformat
Når du planlægger projektet, bør du overveje, hvilket filformat du vil gemme dine data i. Filformatet kan være bestemt af standarderne inden for dit forskningsfelt, samt den software du bruger til at håndtere dine data. Hvis du f.eks. bruger lukket software (software, der ejes af en virksomhed eller en enkeltperson), skal du huske på, at du og dem, der har brug for adgang til dataene (f.eks. andre projektmedlemmer), muligvis ikke kan få adgang til dataene ved hjælp af en anden software. Det kan være problematisk, hvis projektmedlemmerne for eksempel ikke har softwaren, du mister adgangen til den, eller softwaren udfases. Derfor er det bedst at vælge åbne filformater, såsom .csv-formatet til tabeldata og .txt-formatet til tekstfiler.
Datastørrelse
Datastørrelse kan udtrykkes på mange måder, såsom antallet af bøger eller artikler, der bruges i dit tekstkorpus, antallet af prøver, der bruges i din biologiske undersøgelse, eller MB, GB eller TB af digitale datafiler, du kommer til at arbejde med. Ved at estimere, hvor mange data du kommer til at producere, kan du afgøre, om du har tilstrækkelig diskplads til at optage dine lyd- og videofiler og til at behandle og gemme dine digitale data, eller om du har brug for at finde en anden lagringsløsning. Hvis du arbejder med fysisk materiale, skal du også vurdere, hvor meget fryser- eller skabsplads, du får brug for.
____________________________________________________________
Datatyper i praksis
Lad os se på nogle eksempler på forskellige datatyper på KU. I videoerne fortæller syv studerende fra forskellige fakulteter om deres projekter og de data, de arbejder med.
Speciale om andelen af unge i parlamenter og politiske partier
Malthe Rugberg Andersen, Det Samfundsvidenskabelige Fakultet
Datatyper: kvantitative data, afledte data, ikke-fortrolige data, undersøgelser, offentligt tilgængelige data
Undertekster: Klik på CC-ikonet og vælg sprog
Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.
Speciale om reduktion af risikofaktorer hos overvægtige gennem vægttab og/eller medicinering
Rasmus Michael Sandsdal, Det Sundhedsvidenskabelige Fakultet
Datatyper: kvantitative data, afledte data, observationsdata, personoplysninger
Ph.d.-projekt om grammatiske anomalier i dansk som fremmedsprog
Katrine Falcon Søby, Det Humanistiske Fakultet
Datatyper: kvalitative data, kvantitative data, personoplysninger
Speciale: Ensemble Modelling in Spectroscopy – Improving performance and estimating uncertainty
Jakob Riber Rasmussen, Det Natur- og Biovidenskabelige Fakultet
Datatyper: kvantitative data, kvalitative data, afledte data, fortrolige data
Speciale, der undersøger ligheder mellem de nordiske sagaer og Homers Odysseen og Iliaden
Martin Herskind, Det Humanistiske Fakultet
Datatyper: afledte data, kvalitative data, kvantitative data, offentligt tilgængelige data
Bacheloropgave, der undersøger de molekylære mekanismer relateret til atrieflimren
Frida Birkedal Christiansen, Det Sundhedsvidenskabelige Fakultet
Datatyper: kvantitative data, forsøgsdata, ikke-fortrolige data
Bacheloropgave om udtalen af det franske sprog i Belgien
Maya Amalie Haven Træsborg, Det Humanistiske Fakultet
Datatyper: interviewdata, kvalitative data, personoplysninger
____________________________________________________________
Test dig selv
Tjek, om du har fået fat i hovedpunkterne i denne lektion:
Quiz: Forskningsdata – typer, formater og omfang
____________________________________________________________
Fortsæt med din DMP
Arbejd videre på dit projekts datamanagementplan (DMP), som du startede i lektion 1.
Beskriv forskningsdataene i dit projekt ved at besvare spørgsmålene i afsnit 2 i din DMP:
Beskriv, hvilke data/hvilket materiale du vil indsamle, observere, generere, udarbejde eller genanvende i projektet.
2.a Angiv datatypen/datatyperne for hvert datasæt i projektet.
2.b Er der personoplysninger eller fortrolige oplysninger i dit projekt?
2.c Oprindelse/kilde: Hvor kommer dataene/materialet fra?
2.d Estimeret størrelse eller omfang: Hvor mange data/hvor meget materiale kommer du til at arbejde med?
2.e Forventet filformat/forventede filformater: Hvilket format gemmer du dine digitale data i?
Hvis du ikke er begyndt at udfylde din DMP endnu, kan du finde DMP-skabelonen her: KU DMP Skabelon for Studerende Download KU DMP Skabelon for Studerende
Husk at drøfte din datamanagementplan med din vejleder i starten af dit projekt – og senere, hvis du foretager ændringer – så du er sikker på, at I er enige. Opbevar DMP'en sammen med dine data
____________________________________________________________
Praktiske tips og materiale til vurdering af datatyper
- Når du går i gang med en bacheloropgave eller et speciale, start med at overveje, hvilken datatype du kommer til at arbejde med. Du kan også læse afsnittet om dataklassifikation i lektion 6 "dataopbevaring og sikring".
- Hvis du planlægger at arbejde med personoplysninger, anbefaler vi, at du gennemfører KU's online GDPR-kursus for studerende, før du går i gang med dit projekt. Det tager omkring en time at gennemføre kurset, som du finder her.
- Hvis du planlægger at arbejde med personoplysninger, kan du se retningslinjerne og skabelonerne på siderne "Sådan indsamler og håndterer du persondata" på din uddannelses informationssider på KUnet. Du finder siderne under afsnittet "Planlæg dit studie".
- Se RDM-ordlisten for dette kursus , hvor de termer, der anvendes i denne og de andre lektioner, er defineret.
____________________________________________________________
Få mere at vide
Nedenfor er angivet nogle eksterne materialer, hvor du kan læse mere om nogle af de emner, der er nævnt i denne lektion.
Tips og tricks til filformater
How to FAIR : File formats Links to an external site.
UK Data Service: File Formats Links to an external site.
Anbefalede filformater
UK Data Service: Recommended formats Links to an external site.
Filformat-database
Søgbar database med forskellige filformater og detaljerede oplysninger om dem: FileInfo: The File Format Database Links to an external site.
____________________________________________________________
Publiceret i 2024