Dataanalyse

  Tid

Lektionen tager ca. 20 min. at gennemgå. 

 

Informationssøgning-1.png Om lektionen 'Dataanalyse' 

Når du har samlet og struktureret dine data, skal du analysere dem, men dataanalyse er ikke en neutral disciplin. Den afhænger i høj grad af dit specifikke fag, og der er mange faldgruber, du skal være opmærksom på.

I denne lektion behandler vi, hvad der sker, efter data er indsamlet, nemlig analysen af data. Vi lægger vægt på betydningen af en neutral, men kritisk tilgang, advarer om manipulation af data og statistiske resultater, og hvordan visualiseringer kan give indtryk af sammenhænge, der ikke nødvendigvis eksisterer.

 

COBL_learningoutcome_40x40px_2017_15.png  Læringsmål 

Når du har gennemført lektionen, forventer vi at du:

  • har tilegnet dig kendskab til begreberne reliabilitet og validitet.
  • kan beskrive forskellen på korrelation og kausalitet.
  • har tilegnet dig kendskab om, at brugen af statistik ikke nødvendigvis er neutral.
  • har tilegnet dig kendskab om, at datavisualisering kan farve tolkningen af resultatet.

 

image-4f5047bb-9c7a-4224-a216-1e603987dd62.png  Kilde

Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.

Fagansvarlige:

  • Christian B. Knudsen, specialkonsulent, Københavns Universitetsbibliotek (KUB)
  • Daniel H. Pryn, specialkonsulent, Københavns Universitetsbibliotek (KUB)

__________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Hvilke spørgsmål kan du stille til dine data?

Når du har indsamlet data, skal du overveje, hvilke spørgsmål du kan stille til dine data for at opnå en valid og pålidelig undersøgelse.

Der er flere ting, du kan gøre for at sikre, at dine spørgsmål kan besvares af den indsamlede data. Eksempelvis:

  1. Vær specifik: Du bør være specifik omkring de spørgsmål, du ønsker at besvare, da dette kan hjælpe dig med at finde de relevante dele af de indsamlede data.
  2. Overvej spørgsmålets form: Du bør formulere spørgsmålene på en måde, der gør det muligt at besvare dem ved hjælp af de indsamlede data. F.eks. kan det ofte være en fordel at stille åbne spørgsmål, når der er tale om kvalitative data, mens lukkede spørgsmål kan være nyttige, når der er tale om kvantitative data.
  3. Sammenlign med eksisterende viden: Det er nyttigt at sammenligne dine spørgsmål med eksisterende viden om emnet for at sikre, at de kan besvares af den indsamlede data.
  4. Analyse af data: Det er ofte nyttigt at bruge forskellige analysemetoder for at undersøge de indsamlede data og sikre, at de kan besvare dine spørgsmål. Dette kan omfatte både kvantitative og kvalitative metoder afhængigt af formålet med din undersøgelse.

Ved at følge disse råd kan du forsøge at sikre, at de spørgsmål, du stiller, kan besvares af de indsamlede data, hvilket vil give dig mulighed for at opnå en pålidelig og valid forståelse af det undersøgte emne. Det er vigtigt at huske, at det ikke altid er muligt at besvare alle de spørgsmål, du måtte have, og at der kan være begrænsninger i de indsamlede data, der gør dette umuligt. Derfor er det også vigtigt at være åben om disse begrænsninger og ikke drage konklusioner på baggrund af data, der ikke er pålidelige eller valide.

__________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Kritisk tilgang og manipulation af data 

Når du analyserer data, er det vigtigt, at du er opmærksom på at være objektiv og systematisk i din tilgang. Dette indebærer, at du skal være opmærksom på eventuelle bias Links to an external site. eller fordomme, der kan påvirke fortolkningen, og at du er åben over for muligheden for, at resultaterne kan have flere forskellige tolkninger. Det er med andre ord nødvendigt at være kritisk over for både datagrundlaget og de metoder, du benytter til at analysere data, når du skal konkludere på baggrund af dine undersøgelser.

Det er ligeledes vigtigt at være opmærksom på, at data kan manipuleres – både bevidst og ubevidst. Dette kan ske på flere måder, f.eks. ved at vælge en datamængde, der ikke er repræsentativ, ved at fortolke data på en misvisende måde eller ved at udelade data, der ikke passer ind i den ønskede konklusion.

Manipulation af data kan have store konsekvenser, da det kan føre til forkerte konklusioner og dermed også forkerte beslutninger og handlinger. Derfor er det essentielt at være kritisk over for datagrundlaget og de metoder, du benytter til at analysere data, og at være opmærksom på, hvordan data påvirkes af forskellige faktorer. Dette er med til at sikre, at du træffer informerede beslutninger på baggrund af pålidelige og repræsentative data.

Der findes mange metoder, som du kan benytte til at analysere data, f.eks. sentimentanalyse, diskursanalyse og netværksanalyse. Statistik er også et vigtigt værktøj, når du skal beskrive og sammenligne data. Statistik hjælper dig til at se mønstre og tendenser i data. Det er dog vigtigt at huske, at anvendelsen af statistik ikke nødvendigvis er neutral og kan farve resultatet. Det skyldes, at der er mange faktorer, der kan påvirke resultaterne, f.eks. hvordan data er indsamlet, hvilken datamængde der er tale om, og hvordan data visualiseres. Derfor er det vigtigt, at du er kritisk over for, hvordan data visualiseres, da dette også kan påvirke din forståelse af resultaterne. (Statistik og visualisering vil blive uddybet i separate afsnit senere i denne lektion.)

Se evt. video om “IF I APPLY”-metoden i lektionen 'Nye metoder til digital kildekritik' – nærmere bestemt det første “I", som står for "Identify your own emotions".

__________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Reliabilitet og validitet

Reliabilitet og validitet er to begreber, der har stor betydning i relation til både dataindsamling og den efterfølgende analyse. Reliabilitet refererer til, hvor pålidelig og konsistent metoden af en undersøgelse er. Validitet henviser til, hvor korrekt udledt resultaterne af en undersøgelse er. Det vil sige, at resultaterne af undersøgelsen skal afspejle det, de undersøger.

  Reliabilitet

Reliabilitet henviser som nævnt til pålidelighed, og der er her tale om pålideligheden af den håndværksmæssige kvalitet. Dette defineres til tider ved, at et forsøg skal kunne genskabes eller være reproducerbart. Det vil sige, at en anden forsker ud fra forsøgsbeskrivelsen skal være i stand til at genskabe forsøget med samme konklusioner til følge. En sådan tilgang er dog mest nyttig i forhold til kvantitative undersøgelser, men begrebet gør sig også gældende for kvalitative undersøgelser. Her fokuseres der især på gennemskuelighed og neutralitet som kriterier for reliabilitet. Med gennemskuelighed menes, at der skal være præcise og eksplicitte argumentationer for og beskrivelser af de valg, der er truffet. Neutralitet handler blandt andet om at vægte al relevant data ligeligt og ikke kun fremhæve de resultater, som peger i retning af et ønsket forskningsresultat.

  Validitet

Det tætteste synonym, vi finder på validitet, er gyldighed, og et udsagns validitet refererer til dets gyldighed og korrekthed. Det vil sige, at et validt argument er et, der er velbegrundet, forsvarligt og overbevisende, og en valid konklusion er dermed en konklusion, som er korrekt udledt af sine præmisser. Med andre ord betyder det, at du skal sikre dig, at du faktisk undersøger det, du ønsker at undersøge. Er spørgsmålene ikke velvalgte i forhold til undersøgelsen, og er der ikke gennemskuelighed og objektivitet både i forhold til, hvordan du indsamler data, og den efterfølgende analyse af resultaterne, er det ikke muligt at forholde sig til analysens validitet.

__________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Korrelation vs. kausalitet 

Når du analyserer data, er det vigtigt at forstå forskellen på korrelation og kausalitet. Korrelation betyder, at to fænomener varierer i takt med hinanden. Korrelation kan være positiv, hvis fænomenerne stiger eller falder i takt, eller negativ, hvis et fænomen stiger, når det andet falder. Korrelation siger dog ikke noget om, hvorvidt en variabel er årsagen til den anden.

Nedenfor ser du et eksempel på to grafer, hvor korrelationen er høj, uden at der (så vidt vides) er nogen kausalitet mellem de to. På siden ”Spurious Correlations Links to an external site.” kan du finde mange andre morsomme korrelationer, som ikke er baserede på kausalitet.

SpuriousCorrelations.png

Kilde: https://www.tylervigen.com/spurious-correlations Links to an external site.

 

Kausalitet er derimod en årsag-virknings-sammenhæng mellem to variable, hvor ændringer i den ene variabel faktisk har en effekt på den anden. Det er derfor vigtigt at afgøre, om det er korrelation eller kausalitet, der ligger til grund for dine konklusioner, da det har betydning for, hvad du kan lære af din undersøgelse. Hvis du tror, at der er kausalitet mellem to variable, men det i virkeligheden kun drejer sig om korrelation, kan dine konklusioner være forkerte.

For at underbygge påstanden om kausalitet kan det være hensigtsmæssigt at ændre på en variabel, som du kan kontrollere, og derefter undersøge, om dette har en effekt på den anden variabel. Dette kaldes inferens og er en måde at forsøge at sikre, at resultaterne af en undersøgelse ikke blot er en korrelation, men faktisk skyldes en kausal sammenhæng.

Der er en række yderligere faktorer, du skal være opmærksom på, når du vil påvise en sammenhæng mellem to fænomener. Nogle af de faktorer, der kan påvirke resultaterne af en undersøgelse, er:

  • Hvorvidt den population, der undersøges, er repræsentativ for den population, du ønsker at sige noget om. Hvis populationen eller stikprøven ikke er repræsentativ, kan resultaterne være misvisende.
  • Faktorer, der kan påvirke sammenhængen mellem de to fænomener. Det er vigtigt at være opmærksom på, om der kan være sådanne faktorer, og at tage dem i betragtning i undersøgelsen.
  • At analysemetoderne er velegnede til at undersøge sammenhængen mellem de to fænomener og at tage forbehold for eventuelle bias eller fordomme, der kan påvirke resultaterne.

Endelig er det vigtigt at være opmærksom på, om resultaterne er robuste og kan generaliseres, og om der er mulighed for andre tolkninger af resultaterne. Det er også vigtigt at være åben for muligheden for, at der slet ikke er nogen sammenhæng mellem de to fænomener. Et negativt resultat er også et resultat.

__________________________________________________________

 

COBL_litterature_40x40px_2017_18.png  Statistik er ikke altid neutral

Der kan være mange faktorer, der påvirker resultaterne af en statistisk analyse, såsom udvælgelse af data, måden, data indsamles på, hvordan data behandles og analyseres m.m. Hvis ikke sådanne faktorer tages i betragtning, kan resultaterne blive misvisende eller vildledende. Det er derfor vigtigt, at du er opmærksom på eventuelle bias og udfører en grundig og transparent analyse, så du sikrer, at resultaterne er så præcise og repræsentative som muligt.

Det er også vigtigt at huske, at statistik ikke altid kan give en endegyldig sandhed eller svar på et spørgsmål. I stedet kan det give et billede af en given population eller fænomen, som kan hjælpe med at skabe viden derom og evt. lede til yderligere forskningsspørgsmål.

P-hacking

Et eksempel på manipulerende brug af statistik er p-hacking. P-hacking refererer til en række teknikker, der kan anvendes for at få resultaterne af en statistisk analyse til at se mere signifikante eller betydningsfulde ud, end de reelt er. Dette kan ske ved f.eks. at vælge en metode, der giver stærkere resultater, eller ved at ændre på data eller analysemetoderne på en måde, der favoriserer ønskede resultater. Eller – i sin rene form – at undersøge så mange sammenhænge i data, at man er næsten sikker på at finde falsk positive resultater. Det vil sige resultater, hvor vores undersøgelse konkluderer, at “der er noget”, som der ikke er.

P-hacking.png

NewsJellyBeansLinkedtoAcne.png

Kilde: https://xkcd.com/882 Links to an external site.

__________________________________________________________

 

COBL_videolecture_40x40px_2017_4.png  Visualisering af data

Visualisering af data er en vigtig del af dataanalyse, da det kan hjælpe med at gøre data mere tilgængelige og forståelige for mennesker. Der findes mange forskellige måder at visualisere data på, og valget af den bedste visualisering afhænger af typen af data og formålet med visualiseringen. Når man selv analyserer data, er formålet ofte at afsløre sammenhænge, der kan være svære at få øje på i tallene. Når du præsenterer data, er formålet ofte at fortælle en historie om, hvad du har fundet af resultater.

Det er vigtigt at vælge den bedste metode til at formidle dine data og budskab på en klar og overskuelig måde. Der er mange forskellige værktøjer og teknikker, du kan bruge til at visualisere data, såsom tabeller, diagrammer, kort og plots.

En ting, du skal overveje, når du visualiserer data, er, hvordan du arrangerer dine data. Det kan være nyttigt at sortere data eller gruppere dem på en bestemt måde for at gøre det nemmere at forstå og se mønstre eller tendenser. Du bør også overveje at anvende forskellige farver, linjer og symboler for at gøre visualiseringen mere interessant og nemmere at forstå.

Det er også vigtigt at vælge de rigtige skalaer og akser, når du visualiserer data. Dette kan hjælpe med at give et mere præcist billede af data og gøre det nemmere at sammenligne forskellige data eller se ændringer over tid.

I den korte video nedenfor kan du se, at valget af akser gør en stor forskel, når du viser dine data.

 

Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.


Du kan selv lege med plottet fra videoen her: https://kubdatalab.github.io/pca_demo.html

 

Endelig er det vigtigt at sikre, at dine visualiseringer er præcise og korrekte. Dette indebærer en verificering af, at data er indtastet og behandlet korrekt, og at visualiseringen ikke fortolker data på en vildledende måde.

Kigger vi eksempelvis på nedenstående grafer, viser de fuldstændig samme data, men visualiseret på forskellig vis. Alt efter hvilken visualisering vi vælger, vil de to grafer også give vidt forskellige indtryk. Den venstre graf vil give indtryk af, at der er en markant stigning i de viste renter (“Interest Rates”), hvorimod den højre giver indtryk af, at renterne ligger på et forholdsvis fast niveau. Ingen af de to visualiseringer er for så vidt forkerte, men det er vigtigt at være opmærksom på, at de fremstiller data på en “farvet” måde, der påvirker læseren.

HuffPost - SameDataDifferentY-Axis.png

Kilde: huffpost.com/entry/lie-with-data-visualization Links to an external site.

Visualisering af data kan være en nyttig metode til dataanalyse, da det kan hjælpe med at give et overblik over data og fremhæve mønstre og tendenser, som ellers kan være svære at opdage.

Når du visualiserer data som led i din dataanalyse, kan det derfor være nyttigt at bruge forskellige typer af visualiseringer for at se data fra forskellige vinkler og opdage mønstre, der ikke er åbenlyse ved første øjekast. Det kan også være nyttigt at interagere med visualiseringerne, f.eks. ved at zoome ind på specifikke dele af data eller ved at filtrere data for at fokusere på bestemte undergrupper.

Husk, at visualiseringer kun er et værktøj til at hjælpe med at forstå data. Det er ikke en erstatning for at analysere data grundigt og bevæge sig videre til dybere analyser. I sidste ende handler visualisering af data om at gøre data nemmere at forstå og formidle budskaber på en klar og overskuelig måde.

__________________________________________________________

 

COBL_fieldtrip_40x40px_2017_8.png  Hvis du vil vide mere

 

__________________________________________________________