2. Forskningsdata – typer, formater og omfang

COBL_learningoutcome_40x40px_2017_15.png  Læringsmål 

Når du har gennemført denne lektion, vil du være i stand til at:  

  • identificere forskellige typer data 
  • forstå, hvordan datatype, filformat og filstørrelse kan påvirke, hvordan du håndterer dine data  
  • forklare, hvilke datatyper der særligt skal beskyttes, og hvorfor det er vigtigt. 

____________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Datatyper 

Som nævnt i den foregående lektion er det god praksis at udarbejde en datamanagementplan ved projektstart, da den hjælper dig med at identificere mulige udfordringer på forhånd. Et godt udgangspunkt for at beslutte, hvilken datamanagement-tilgang der skal bruges på dit projekt, er at identificere og beskrive de forskningsdata, du kommer til at arbejde med. Når du beskriver dataene i projektet, kan det være en hjælp at dele dataene op i kategorier. Det kan du gøre på forskellige måder. Nedenfor er tre eksempler: 

1. Kvantitative vs. kvalitative data

Du kan dele dine data op i to overordnede kategorier:  

  • Kvantitative data er data, der kan tælles eller sammenlignes på en numerisk skala, såsom målinger foretaget med laboratorieudstyr, optællinger af det daglige antal besøgende på en udstilling og data fra spørgeskemaundersøgelser om indtægter og udgifter.   
  • Kvalitative data er ikke-numeriske og beskriver egenskaber eller karakteristika. Eksempler kan være interviewudskrifter, svar på spørgeskemaer med åbne spørgsmål, fotografier eller lydfiler.  
2. Kategorisering efter indsamlingsmetode

Du kan også opdele dine data ud fra, hvordan de er indsamlet.   

  • Observationsdata er data, der indsamles ved at observere en aktivitet, f.eks. føleraflæsninger eller observationer af dyrs eller menneskers adfærd.   
  • Forsøgsdata er data indsamlet under kontrollerede forhold, ofte ved at manipulere en variabel i en undersøgelse og måle resultatet. Eksempler kan være plantevækstdata under forskellige lysforhold eller en søgeparameter.    
  • Interviewdata er data, der indsamles ved at stille spørgsmål til (grupper af) enkeltpersoner for at indsamle kvantitative eller kvalitative oplysninger, f.eks. for at undersøge kulturel identitet eller ved måling af brugernes tilfredshed med en bestemt service.     
  • Simuleringsdata er data, der genereres af computermodeller for at simulere faktiske forhold, såsom økonomiske eller meteorologiske modeller.    
  • Afledte data er data, der skabes ved at kombinere og behandle eksisterende data, f.eks. gennem tekstmining af litteratur eller datamining af datasæt.  
3. Kategorisering efter krævet sikkerhedsniveau (dataklassifikation)

Det er meget vigtigt, at du er i stand til at afgøre, om der er etiske eller juridiske grunde til at være ekstra omhyggelig med at beskytte dine data mod uautoriseret adgang eller tab af data. Det kan være nødvendigt for at beskytte enkeltpersoners privatliv, for at beskytte dyr, økosystemer, sårbare befolkningsgrupper, kulturarv osv., eller fordi der er aftaleforhold, der forhindrer videregivelse af data. Du kan derfor opdele dine data efter det databeskyttelsesniveau, de kræver. Her opdeler vi groft sagt data i to kategorier: 

  • Data, hvor databeskyttelse er nødvendig af etiske eller juridiske grunde: 

Personoplysninger er data, der direkte eller indirekte kan identificere en person. 
Fortrolige data er andre data end personoplysninger, der kun bør være tilgængelige for et begrænset antal personer, og hvor utilsigtet eller forsætlig eksponering af disse data kan have betydelige konsekvenser. Eksempler kan være virksomhedsdata, data med kommercielt potentiale, fortrolige myndighedsdata og følsomme biologiske data.

  • Data, hvor databeskyttelse ikke er nødvendig af etiske eller juridiske grunde: 

Det kan være, at du arbejder på et projekt, hvor der ikke er etiske eller juridiske grunde til at beskytte data, og dataene kan videregives uden negative konsekvenser. Nogle eksempler kan være offentligt tilgængelige datasæt, data præsenteret i videnskabelige publikationer, anonymiserede personoplysninger, ikke-følsomme økonomiske data og arkæologiske data fra undersøgelser, der ikke involverer følsomme kultur- eller kulturarvsoplysninger.  

Når du har identificeret det krævede sikkerhedsniveau, er du halvvejs gennem en såkaldt "dataklassifikation". Vi vender tilbage til og uddyber dette koncept i lektion 6 om "dataopbevaring og informationssikkerhed".   

____________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Hvorfor er det vigtigt at vurdere datatypen? 

Hvorfor er det vigtigt at overveje og beskrive den type data, du kommer til at arbejde med? Det er vigtigt, fordi det er datatypen, der afgør, hvordan du skal håndtere dine data. Her er nogle eksempler: 

Eksempel 1. Indsamlings- og dokumentationspraksis kan variere fra datatype til datatype 
Hvis du arbejder med kvantitative data, bruger du andre dokumentationsmetoder, end hvis du arbejder med kvalitative data. Du registrerer muligvis dine data i Excel-ark i stedet for i tekstdokumenter.  

Eksempel 2. Kravene til brug af data kan variere fra datatype til datatype 
Hvis du beslutter dig for at genbruge eksisterende datasæt ("afledte data") frem for at producere dine egne data, skal du i dit projekt undersøge, om dataleverandøren, såsom en virksomhed eller et register, har regler for, hvad du må og ikke må gøre med dataene.

Eksempel 3. De forholdsregler, der skal tages for at lagre data sikkert, kan variere fra datatype til datatype  
Hvis du arbejder med personoplysninger, skal du opbevare dataene på en måde, så de er beskyttet mod uautoriseret adgang. Det kræver yderligere sikkerhedsfunktioner såsom datakryptering og lagring på et specifikt drev til følsomme data. Hvis du arbejder med anonymiserede data, behøver du muligvis ikke at kryptere dine data, og dine data kan lagres på et normalt universitetsdrev.  

Med andre ord kan den måde, data håndteres på, variere fra studerende til studerende og fra projekt til projekt, afhængigt af typen af data i projektet. Det betyder, at din datamanagementplan (DMP) kan se helt anderledes ud end en anden studerendes eller et andet projekts. Det betyder også, at du skal udarbejde en ny plan, hver gang du starter et projekt. 

____________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Andre datakarakteristika: filformat og dataomfang 

Ud over datatypen kan formatet på dine digitale filer samt omfanget eller mængden af dine data og fysiske materialer også påvirke, hvordan du arbejder med dine data.     

Filformat  
Når du planlægger projektet, bør du overveje, hvilket filformat du vil gemme dine data i. Filformatet kan være bestemt af standarderne inden for dit forskningsfelt, samt den software du bruger til at håndtere dine data. Hvis du f.eks. bruger lukket software (software, der ejes af en virksomhed eller en enkeltperson), skal du huske på, at du og dem, der har brug for adgang til dataene (f.eks. andre projektmedlemmer), muligvis ikke kan få adgang til dataene ved hjælp af en anden software. Det kan være problematisk, hvis projektmedlemmerne for eksempel ikke har softwaren, du mister adgangen til den, eller softwaren udfases. Derfor er det bedst at vælge åbne filformater, såsom .csv-formatet til tabeldata og .txt-formatet til tekstfiler.   

Datastørrelse  
Datastørrelse kan udtrykkes på mange måder, såsom antallet af bøger eller artikler, der bruges i dit tekstkorpus, antallet af prøver, der bruges i din biologiske undersøgelse, eller MB, GB eller TB af digitale datafiler, du kommer til at arbejde med. Ved at estimere, hvor mange data du kommer til at producere, kan du afgøre, om du har tilstrækkelig diskplads til at optage dine lyd- og videofiler og til at behandle og gemme dine digitale data, eller om du har brug for at finde en anden lagringsløsning. Hvis du arbejder med fysisk materiale, skal du også vurdere, hvor meget fryser- eller skabsplads, du får brug for.  

____________________________________________________________

 

COBL_videolecture_40x40px_2017_4.png  Datatyper i praksis 

Lad os se på nogle eksempler på forskellige datatyper på KU. I videoerne fortæller syv studerende fra forskellige fakulteter om deres projekter og de data, de arbejder med.   

Speciale om andelen af unge i parlamenter og politiske partier 
Malthe Rugberg Andersen, Det Samfundsvidenskabelige Fakultet 
Datatyper: kvantitative data, afledte data, ikke-fortrolige data, undersøgelser, offentligt tilgængelige data 

 

Undertekster: Klik på CC-ikonet og vælg sprog
Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.


Speciale om reduktion af risikofaktorer hos overvægtige gennem vægttab og/eller medicinering 
Rasmus Michael Sandsdal, Det Sundhedsvidenskabelige Fakultet 
Datatyper: kvantitative data, afledte data, observationsdata, personoplysninger 

 

Ph.d.-projekt om grammatiske anomalier i dansk som fremmedsprog 
Katrine Falcon Søby, Det Humanistiske Fakultet 
Datatyper: kvalitative data, kvantitative data, personoplysninger 

 

Speciale: Ensemble Modelling in SpectroscopyImproving performance and estimating uncertainty 
Jakob Riber Rasmussen, Det Natur- og Biovidenskabelige Fakultet 
Datatyper: kvantitative data, kvalitative data, afledte data, fortrolige data 

 

Speciale, der undersøger ligheder mellem de nordiske sagaer og Homers Odysseen og Iliaden 
Martin Herskind, Det Humanistiske Fakultet 
Datatyper: afledte data, kvalitative data, kvantitative data, offentligt tilgængelige data 

 

Bacheloropgave, der undersøger de molekylære mekanismer relateret til atrieflimren 
Frida Birkedal Christiansen, Det Sundhedsvidenskabelige Fakultet 
Datatyper: kvantitative data, forsøgsdata, ikke-fortrolige data 

 

Bacheloropgave om udtalen af det franske sprog i Belgien 
Maya Amalie Haven Træsborg, Det Humanistiske Fakultet 
Datatyper: interviewdata, kvalitative data, personoplysninger   

____________________________________________________________

 

COBL_quiz_40x40px_2017_1.png  Test dig selv

Tjek, om du har fået fat i hovedpunkterne i denne lektion: 

Quiz: Forskningsdata – typer, formater og omfang

____________________________________________________________

 

COBL_tasks_40x40px_2017_10.png  Fortsæt med din DMP 

Arbejd videre på dit projekts datamanagementplan (DMP), som du startede i lektion 1  

Beskriv forskningsdataene i dit projekt ved at besvare spørgsmålene i afsnit 2 i din DMP:  

 

Beskriv, hvilke data/hvilket materiale du vil indsamle, observere, generere, udarbejde eller genanvende i projektet.   

2.a Angiv datatypen/datatyperne for hvert datasæt i projektet.  

2.b Er der personoplysninger eller fortrolige oplysninger i dit projekt? 

2.c Oprindelse/kilde: Hvor kommer dataene/materialet fra?  
2.d Estimeret størrelse eller omfang: Hvor mange data/hvor meget materiale kommer du til at arbejde med?  

2.e Forventet filformat/forventede filformater: Hvilket format gemmer du dine digitale data i?  

 

Hvis du ikke er begyndt at udfylde din DMP endnu, kan du finde DMP-skabelonen her: KU DMP Skabelon for Studerende Download KU DMP Skabelon for Studerende

Husk at drøfte din datamanagementplan med din vejleder i starten af dit projekt – og senere, hvis du foretager ændringer – så du er sikker på, at I er enige.  Opbevar DMP'en sammen med dine data

____________________________________________________________

 

COBL_sparks_40x40px_2017_19.png  Praktiske tips og materiale til vurdering af datatyper 

 

  1. Når du går i gang med en bacheloropgave eller et speciale, start med at overveje, hvilken datatype du kommer til at arbejde med. Du kan også læse afsnittet om dataklassifikation i lektion 6 "dataopbevaring og sikring".

  2. Hvis du planlægger at arbejde med personoplysninger, anbefaler vi, at du gennemfører KU's online GDPR-kursus for studerende, før du går i gang med dit projekt. Det tager omkring en time at gennemføre kurset, som du finder her

  3. Hvis du planlægger at arbejde med personoplysninger, kan du se retningslinjerne og skabelonerne på siderne "Sådan indsamler og håndterer du persondata" på din uddannelses informationssider på KUnet. Du finder siderne under afsnittet "Planlæg dit studie". 

  4. Se RDM-ordlisten for dette kursus , hvor de termer, der anvendes i denne og de andre lektioner, er defineret.

____________________________________________________________

 

COBL_fieldtrip_40x40px_2017_8.png  Få mere at vide 

Nedenfor er angivet nogle eksterne materialer, hvor du kan læse mere om nogle af de emner, der er nævnt i denne lektion. 


Tips og tricks til filformater

How to FAIR : File formats Links to an external site.

UK Data Service: File Formats Links to an external site.

 

Anbefalede filformater 

UK Data Service: Recommended formats Links to an external site.

 

Filformat-database 

Søgbar database med forskellige filformater og detaljerede oplysninger om dem: FileInfo: The File Format Database Links to an external site.

____________________________________________________________

Publiceret i 2024