God dataindsamlingspraksis
Tid
Lektionen tager ca. 20 min. at gennemgå.
Om lektionen 'God dataindsamlingspraksis'
Hvad skal du overveje, når du indsamler data i forbindelse med opgaver og projekter?
Før du giver dig i kast med at indsamle data, er der en række forhold, du bør overveje grundigt. Indsamler du forkerte data, kan du ikke gennemføre den ønskede analyse. Indsamler du overflødige data, spilder du tid, du kunne have brugt bedre.
I denne lektion gennemgår vi en række forhold, du bør være opmærksom på i forbindelse med indsamling af data; fra dit formål med indsamling af data og overvejelser over afgrænsning af emnet for undersøgelsen til neutralitet i formulering af spørgsmål.
Lektionen sluttes af med at berøre praksis omkring indsamling og organisering af data.
Bemærk: Denne lektion er en blanding af praktiske råd og anbefalinger til videnskabsteoretiske overvejelser. Både praktik og teori vil selvsagt variere fra fagområde til fagområde, og derfor skal følgende også læses som en generel introduktion.
Læringsmål
Når du har gennemført lektionen, forventer vi at du:
- har tilegnet dig kendskab om nogle af de forhold, der påvirker dataindsamling, herunder det metodiske formål med dataindsamlingen, afgrænsning af undersøgelsesspørgsmålet samt datamængden.
- kan genkalde dig strukturering af data (tidy), herunder metadata/dokumentation med henblik på genanvendelse af data.
Kilde
Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.
Fagansvarlige:
- Christian B. Knudsen, specialkonsulent, Københavns Universitetsbibliotek (KUB)
- Daniel H. Pryn, specialkonsulent, Københavns Universitetsbibliotek (KUB)
__________________________________________________________
Formål med dataindsamling
Dataindsamlingen i et projekt kan have forskellige formål afhængigt af den specifikke undersøgelse og de spørgsmål, der skal besvares. Nedenfor ser du nogle væsentlige trin i en videnskabelig undersøgelse, hvor indsamling af data indgår. Det er ikke alle projekter, der involverer alle trin, og nogle projekter har mange flere trin.
Processen er heller ikke altid lineær – og vil faktisk som oftest være iterativ, hvor tidligere punkter genbesøges og rettes til – men hvis vi forsøger at illustrere processen i trin, vil den som oftest se således ud:
Et formål med dataindsamling kan f.eks. være at påvise generelle resultater, dvs. at undersøge, hvad der gælder for en større gruppe individer eller fænomener. I dette tilfælde vil dataindsamlingen have til formål at give et overblik over en given population og identificere eventuelle mønstre eller tendenser i data.
Når du skriver opgaver, kan du ofte opleve, at formålet med dataindsamlingen er, at du skal demonstrere, at du ved, hvordan du indsamler data, snarere end at du skal indsamle så meget data, at du faktisk kan konkludere på det. I dette tilfælde er formålet med dataindsamlingen ikke så meget at skabe grundlag for at svare videnskabeligt på et spørgsmål, men at du viser, at du kan indsamle data på en nøjagtig, pålidelig og etisk forsvarlig måde i en given sammenhæng. Det vil dels lære dig netop at indsamle data, dels træne dig i at dokumentere din proces og dine metoder.
Uanset om formålet er at påvise generelle resultater eller ej, er det vigtigt, at du som universitetsstuderende fokuserer på korrekt dataindsamlingspraksis, når du indsamler data. Det er afgørende både for at sikre validiteten og pålideligheden af dine resultater og for at kunne anvende dem til at skabe viden om et givent emne.
__________________________________________________________
Afgrænsning af undersøgelsesspørgsmål
Afgrænsning af undersøgelsesspørgsmål er en proces, der handler om at formulere specifikke og klare spørgsmål, som relaterer sig til det undersøgte emne, samt at afgrænse undersøgelsen (f.eks. til en specifik tidsperiode, geografisk lokalitet eller befolkningsgruppe) for at sikre, at indsamlede data er relevante og pålidelige i forhold til undersøgelsen. Dette er vigtigt, da det hjælper med at fokusere på et specifikt emne og med at beslutte, hvilke data der er brugbare og relevante for undersøgelsen.
Det kan være vanskeligt at formulere klare og specifikke spørgsmål, da det kræver en grundig forståelse af det emne, der skal undersøges, og at du overvejer, hvilke data der vil være relevante og brugbare for at besvare det formulerede spørgsmål. Det kan også være en udfordring at afgrænse undersøgelsen til en specifik tidsperiode, geografisk lokalitet eller befolkningsgruppe, da det kræver, at du overvejer, hvilke data der vil være relevante og pålidelige for undersøgelsen. Det er ikke desto mindre en vigtig proces, da det hjælper med at sikre, at indsamlede data er relevante og brugbare for undersøgelsen, og at der formuleres spørgsmål, der kan besvares af den indsamlede data.
Eksempler på ikke-velafgrænsede undersøgelsesspørgsmål
- Hvad kan man gøre for at øge plantevæksten af tomatplanter?
Dette spørgsmål er ikke velafgrænset, fordi det ikke er specifikt nok. Det specificerer bl.a. ikke, hvilken slags plantevækst der skal øges – er der f.eks. tale om at øge størrelsen på planterne, antallet af blade eller mængden af frugter? Derfor vil det være svært at indsamle relevante og brugbare data, der kan besvare spørgsmålet. - Hvilke forventninger til AI findes i danske offentlige digitaliseringsstrategier 2017-2022?
Dette spørgsmål er ikke velafgrænset, fordi det ikke specificerer, hvad der teoretisk forstås ved “forventninger”. Det er forudsætningen for at kunne identificere og kategorisere de tekster, der skal analyseres. Udvælgelsen er delvist afgrænset, særligt ved årstal, men det er ikke velafgrænset, om der menes digitaliseringsstrategier i offentlige virksomheder eller, bredere, offentliggjorte digitaliseringsstrategier generelt. - Hvorledes påvirker havearbejde menneskers livskvalitet?
Dette spørgsmål er ikke velafgrænset, fordi det ikke er specifikt nok. Det specificerer ikke, hvilken slags havearbejde der er tale om, eller i hvilket omfang. Der er heller ikke nogen definition af, hvad der menes med livskvalitet. Derfor vil det være svært at indsamle relevante og brugbare data, der kan besvare spørgsmålet.
Eksempler på velafgrænsede undersøgelsesspørgsmål
- Hvordan påvirker forskellige mængder vanding vægten af tomater?
Dette er et velafgrænset undersøgelsesspørgsmål, fordi det fokuserer på en specifik faktor (mængden af vand), der kontrolleres, og en specifik type plante (tomater) og spørger om deres sammenhæng. Dette gør det muligt at indsamle data, der direkte besvarer spørgsmålet og hjælper med at få en forståelse af, hvordan denne specifikke faktor påvirker vægten. - Med udgangspunkt i Joseph Bergers forventningsteori (“expectation states theory”) og begrebet præstationsforventninger (“performance expectations”), hvilke forventninger er der til brugen af AI i digitaliseringsstrategier i jyske kommuner i perioden 2017-2022?
Dette er et velafgrænset undersøgelsesspørgsmål, fordi det specificerer den teoretiske forståelse af begrebet “forventninger”. Yderligere er der en præcis afgrænsning af både periode og digitaliseringsstrategier. Dette gør det muligt at indsamle data, der direkte besvarer spørgsmålet og hjælper med at få en forståelse af, hvilke faktorer der skal fokuseres på. - Hvordan påvirker forskellige mængder (målt ved tid) af forskellige typer havearbejde ved forskellig frekvens menneskers selvrapporterede stressniveau og koncentrationen af kortisol i deres spyt?
Dette er et velafgrænset undersøgelsesspørgsmål, fordi det er meget specifikt på omfanget, typen og frekvensen af havearbejde og specificerer måderne, hvorpå stressniveauet måles. Dette gør det muligt at indsamle data, der direkte kan besvare spørgsmålet og hjælper med en forståelse af, hvordan den specifikke aktivitet påvirker såvel det subjektivt oplevede som det objektivt målbare stressniveau.
__________________________________________________________
Hvilke data skal indsamles?
Det er som skrevet tidligere vigtigt, at du forholder dig til, hvad data skal bruges til, da dette vil påvirke, hvilke data du skal indsamle, og hvordan du skal indsamle dem. Når du ved, hvad du skal bruge data til, kan du lettere vælge de mest hensigtsmæssige målemetoder og sikre, at du indsamler en passende mængde data til formålet.
Hvis du f.eks. skal undersøge sammenhængen mellem inflation og arbejdsløshed i forskellige lande, vil det være vigtigt at indsamle data om både beskæftigelse og prisudvikling. Men det vil også være vigtigt at indsamle data om andre faktorer, der kan påvirke disse parametre, såsom renteniveauet og landenes grad af industrialisering.
Når du har bestemt dig for, hvilke data der skal indsamles, er det ligeledes vigtigt at vælge en hensigtsmæssig metode til at indsamle data. Dette kan f.eks. være spørgeskemaer, databaser, interviews eller laboratoriemålinger.
Se også afsnittet om kausalitet og korrelation i lektionen Dataanalyse.
__________________________________________________________
Neutralitet
Det er vigtigt, at du forholder dig til begrebet neutralitet i indsamlingen af data, uanset hvilken metode du vælger at anvende. Dette gælder både i forhold til valg af population og i forhold til, hvordan du indsamler og analyserer data. Det kan være en god idé at overveje, hvordan du kan designe undersøgelsen på en måde, der minimerer muligheden for bias Links to an external site., f.eks. ved at vælge en repræsentativ population eller ved at anvende passende metoder til indsamling af data. Det kan også være en god idé at have en kritisk tilgang til eventuelle fordomme, du selv har, og sørge for at reflektere over dem undervejs i undersøgelsen.
Se evt. video om “IF I APPLY”-metoden i lektionen Nye metoder til digital kildekritik – nærmere bestemt det første 'I', som står for "Identify your own emotions".
Uanset hvilken metode du vælger at anvende, bør du sikre dig, at undersøgelsesspørgsmålene eller undersøgelsesprotokollen ikke indeholder bias eller fordomme, og at de er formuleret på en klar og forståelig måde. Det kan være en god idé at gennemgå spørgsmålene eller protokollen med en kritisk tilgang for at sikre, at de ikke kan misforstås eller tolkes på flere måder.
Det kan også være en god idé at teste spørgsmålene eller protokollen på en lille gruppe inden dataindsamlingen for at sikre, at de er formuleret korrekt og forståeligt. Dette kan give dig en indikation af, om spørgsmålene eller protokollen er formuleret på en hensigtsmæssig måde, og om der er behov for at justere dem, inden du går i gang med den faktiske dataindsamling.
Når du indsamler data fra målinger, f.eks. kemiske analyser eller biologiske observationer, er det vigtigt at sikre, at metoden er velegnet til formålet med undersøgelsen. Overvej eksempelvis, om der findes andre metoder, der kan anvendes til at opnå de samme data. Ligeledes bør du sikre dig, at måleudstyr og/eller -metoder er kalibrerede og valide, og at der tages forbehold for eventuelle usikkerheder i målingerne.
__________________________________________________________
Hvor meget data skal du indsamle?
Når du indsamler data for at påvise generelle tendenser, er det ofte nødvendigt at indsamle en større mængde data for at sikre, at resultaterne er repræsentative for den population, du undersøger. Jo større mængden af data er, desto sikrere kan du som regel være på, at resultaterne kan generaliseres til hele populationen. Det er dog vigtigt at være opmærksom på, at en stor mængde data ikke altid er ensbetydende med pålidelige resultater. Det kan også være nødvendigt at overveje, hvordan data er indsamlet, så det sikres, at de er repræsentative og pålidelige.
Generelt vil mængden af data (antallet af observationer), der indsamles, være større i kvantitative studier end i kvalitative studier, da det er hensigtsmæssigt at indsamle en stor mængde data i kvantitative studier for at sikre repræsentativitet og pålidelighed i resultaterne, mens man i kvalitative studier ofte vil indsamle en mindre mængde data, men undersøge dem i dybden.
Det er vigtigt at bemærke, at dette kun er en generel tendens, som ikke gælder for alle kvantitative og kvalitative studier. Der kan være eksempler på kvantitative studier, der indsamler en mindre mængde data, f.eks. gennemførelse af en spørgeskemaundersøgelse med et begrænset antal deltagere, og på kvalitative studier, der indsamler en stor mængde data, f.eks. gennemførelse af dybdeinterviews med et stort antal deltagere eller indsamling af et stort antal observationsnotater. Det vil altid afhænge af formålet med undersøgelsen og de spørgsmål, der skal besvares, hvor meget data det er hensigtsmæssigt at indsamle.
For dig som studerende kan formålet nogle gange i højere grad være at dokumentere den metodiske proces snarere end at påvise generelle resultater. I et sådant tilfælde er datamængden ikke nødvendigvis lige så vigtig. Det kan eksempelvis være, at du i højere grad ønsker at fokusere på en specifik del af den metodiske proces og undersøge denne proces i dybden eller at vise, at du er bevidst om den generelle metode for dataindsamling inden for et givent område. Disse metoder er ofte forskellige fra fag til fag og vil være dækket af et eller flere af de metodekurser, du møder på din uddannelse.
Det er derfor vigtigt, at du fra starten forholder dig til formålet med undersøgelsen og de spørgsmål, der skal besvares, da disse vil være afgørende for, hvilken mængde data det er hensigtsmæssig at indsamle.
__________________________________________________________
Dataindsamling i praksis
I løbet af den praktiske dataindsamling kan du anvende både manuelle og automatiske metoder.
Manuel dataindsamling involverer at samle data ved håndkraft, f.eks. ved at udføre interviews, udfylde spørgeskemaer eller indtaste data manuelt i en computer. Fordelen ved manuel dataindsamling er, at det kan være relativt nemt at implementere. Ulempen er, at det kan være tidskrævende og kan føre til fejl, hvis der f.eks. er mangler eller fejl i indtastningen. Indtastningsfejl kan dog til en vis grad forebygges f.eks. ved at anvende muligheder for automatisk validering af input i Excel – eksempelvis ved at få en advarsel, hvis der indtastes tekst i et felt, hvor der kun burde være tal.
Automatisk dataindsamling involverer at anvende teknologi til at indsamle data, f.eks. ved hjælp af sensorer eller software. Fordelen ved automatisk dataindsamling er, at det kan være mere præcist og effektivt end manuel dataindsamling. En ulempe kan være, at det kan være mere kompliceret at implementere – både rent teknisk, men også når det gælder indsamling af kvalitative data.
__________________________________________________________
'Tidy data'
'Tidy data' er et begreb, der refererer til en bestemt form for strukturerede data, som gør det nemmere at arbejde med og analysere data. Data kan dog godt være strukturerede uden at være tidy. Se evt. mere om strukturerede data i lektionen Hvad er data, og hvordan adskiller det sig fra information og viden?'
Tidy data har følgende karakteristika:
- Hver variabel har sin egen kolonne.
- Hver observation har sin egen række.
- Hver type af observationel enhed har sin egen tabel.
Med andre ord skal data være strukturerede på en måde, så hver kolonne indeholder data for én bestemt variabel, mens hver række indeholder data for én bestemt observation. Derudover skal data være opdelt i separate tabeller efter observationel enhed.
Kvalitative data kan ikke nødvendigvis opstilles i et 'tidy format', da de ikke altid er organiseret i rækker og kolonner, men de kan stadig organiseres på en hensigtsmæssig måde, så de er lettere at arbejde med, og principperne for tidy data kan derfor også være nyttige i organiseringen af kvalitative data.
Når data er strukturerede på denne måde, bliver det lettere at finde, bearbejde og analysere dem, da der ikke er nogen unødvendig information eller redundant data. Dette gør det også lettere at visualisere data og præsentere resultaterne på en meningsfuld måde.
Eksempel på tidy data – plantevækst
I den nedenstående tabel er hver kolonne dedikeret til én bestemt variabel (dato, grøntsag, nedbør, solskin, pH og vækst), mens hver række indeholder data for én bestemt observation (vækst af én grønsag på én bestemt dag). Der er ingen unødvendig information eller redundant data, og tabellen er let at bearbejde og visualisere.
Dato |
Grøntsag |
Vanding (ml) |
Solskin (timer) |
pH af jord |
Vækst (cm) |
2023-06-20 |
Tomater |
500 |
6 |
7.0 |
10 |
2023-06-20 |
Agurker |
500 |
6 |
7.0 |
8 |
2023-06-21 |
Tomater |
400 |
8 |
6.5 |
12 |
2023-06-21 |
Agurker |
400 |
8 |
6.5 |
10 |
2023-06-22 |
Tomater |
300 |
4 |
7.0 |
14 |
2023-06-22 |
Agurker |
300 |
4 |
7.0 |
12 |
2023-06-23 |
Tomater |
450 |
7 |
6.8 |
16 |
2023-06-23 |
Agurker |
350 |
5 |
7.2 |
14 |
__________________________________________________________
Dokumentation og metadata
Metadata er oplysninger om data, f.eks. hvad de måler, hvordan de er indsamlet, og hvornår de er indsamlet. Metadata er vigtige, da de gør det muligt at forstå og anvende data på en hensigtsmæssig måde.
Dokumentation er en detaljeret beskrivelse af, hvordan data er indsamlet og analyseret. Dokumentationen bør indeholde informationer om metoder, analyser og resultater. Dokumentation er vigtig, da det gør det muligt for andre at reproducere undersøgelsen og forstå, hvordan resultaterne er opnået.
Både metadata og dokumentation er altså vigtige for at sikre, at data er pålidelige og (gen)anvendelige. De hjælper dig til at sikre, at data kan forstås og anvendes korrekt, at undersøgelsen kan reproduceres, og at resultaterne kan verificeres. Derfor bør metadata og dokumentation altid være en del af en videnskabelig undersøgelse.
Læs mere i lektionen Beskriv dine data, så de kan forstås – om at genbruge data under emnet Datahåndtering.
__________________________________________________________
Hvis du vil vide mere
- Svend Brinkmann og Lene Tanggaard (red.): Kvalitative metoder: https://soeg.kb.dk/permalink/45KBDK_KGL/1pioq0f/alma99123305429905763
Links to an external site.
- Mie Femø og Svend Skriver: Metodekogebogen: https://soeg.kb.dk/permalink/45KBDK_KGL/1pioq0f/alma99122686898605763
Links to an external site.
- Lotte Rienecker og Peter Stray Jørgensen: Den gode opgave: https://soeg.kb.dk/permalink/45KBDK_KGL/1pioq0f/alma99124030748405763
Links to an external site.
__________________________________________________________