Digitale data som grundlag for viden

time Tid

Lektionen forventes at tage ca. 15 minutter at gennemføre, hvis du læser teksten på siden og laver øvelserne. Hvis du vil vide mere, kan du følge links til anbefalet materiale.

 

  Om lektionen 'Digitale data som grundlag for viden'

Lektionen giver dig en introduktion til de særlige problemstillinger der knytter sig til indsamling og brug af digitale data til vidensproduktion. Her er fokus både på data indsamlet direkte fra personer (fx gennem forskerdrevne tracking-apps) og data fra internet-services (fx sociale medier og mobile apps).  I lektionen behandles både de udfordringer der kan være med kvaliteten af indsamlede digitale data, og med repræsentationen af individer baseret på digitale data og metadata. Efter at have gennemgået lektionen kan du skelne mellem data og metadata, samt identificere og diskutere nogle af de muligheder og udfordringer, der er ved at arbejde med digitale data.

 

 Læringsmål

Når du har gennemført lektionen, forventer vi at du:

  • har opnået forståelse for muligheder og begrænsninger i analyser af digitale data.
  • kan reflektere over brug af data og metadata i din egen vidensproduktion.

 

image-4f5047bb-9c7a-4224-a216-1e603987dd62.png Kilde

Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.

Fagansvarlig: Jacob Ørmen, tenure track adjunkt, Institut for kommunikation.

____________________________________________________________

 

Literature.png Hvad er digitale data?

Internettet og mobile enheder har gjort det muligt at indsamle store mængder og meget detaljerede digitale data om folk. Digitale data tilbyder derfor unikke forskningsmuligheder, men forstærker samtidig kendte udfordringer fra indsamling og analyse af data. 

Digitale data kan overordnet set defineres som information, der er afgrænset af et numerisk system (typisk lagret som computerkode i nuller og et-taller), modsat analoge data, der er kontinuerte og kan afsendes gennem fx radiobølger eller opbevares fysisk fx på papir eller vinylplader. Men i en tid hvor størstedelen af den information som produceres er digital giver denne skelnen ikke den store klarhed. Derimod er det mere hjælpsomt at tænke digitale data primært som de informationer der er født digitale (modsat de informationer der digitaliseres) og som oftest tilgås i databaser eller indsamles ved hjælp af digitale værktøjer (i modsætning til fx interviews eller manuelle spørgeskemaundersøgelser). 

I forskningssammenhæng er det afgørende nye ved digitale data:

  • Mængden af information, der er tilgængelig. Digitale data har gjort det muligt at studere menneskers adfærd i en hidtil uset skala (det som nogen kalder 'big data') gennem de digitale spor, som vores adfærd på internettet efterlader (Nature 2021 Links to an external site.). Det har muliggjort at vi kan studere flere mennesker på samme tid, over længere tid og gennem metoder der er mindre indgribende i forskningsdeltagernes adfærd (fx gennem passiv tracking i stedet for laboratorieeksperimenter).

  • Typen af informationer, vi kan indsamle. Den centrale type her er metadata som er 'information om information'. Når man eksempelvis tager et fotografi med sin telefon, så lagrer telefonen en række metadata sammen med fotografiet, så som informationer om hvor og hvornår billedet er taget, hvilke indstillinger der er brugt osv. Computersystemer genererer ofte metadata for at holde styr på processerne (derfor kaldes det også 'log data' i nogle sammenhænge, da dataene bogstaveligt talt er systemets logbog). Indsamlingen af metadata er grundlæggende for hvordan regeringer og virksomheder overvåger folks adfærd på internettet både til kommercielle og politiske formål (se fx diskussionen om overvågningskapitalismens trussel mod demokratiet Links to an external site.). Samtidig har metadata vist sig at være meget værdifuld empiri i forskningssammenhænge fordi de kan give rige indsigter i social adfærd (fx mobilitetsmønstre).

____________________________________________________________

 

COBL_onlinediscussion_40x40px_2017_6-1.png Refleksionsøvelse

Se hvilke metadata hjemmesider kan hente om din browser gennem tracking og fingerprinting:

  1. Åbn værktøjet Links to an external site. fra Electronic Frontier Foundation (EFF)
  2. Tryk på "Test your browser" og vent til resultatet kommer frem på skærmen
  3. Scroll ned til "Detailed Results"
  4. Hvilke slags metadata indsamler tracking?
  5. Hvad siger det om hvor anonym du er, når du browser rundt på internettet?

____________________________________________________________

 

Literature.png Hvordan indsamles digitale data til vidensproduktion?

Indsamling af digitale data sker typisk på to måder:

  1. Gennem databaser

Mange forskere benytter sig af forskningsbaserede såvel som kommercielle databaser til at tilgå digitale data. Især er det blevet populært at bruge Application Programming Interfaces (APIer) til at hente data fra eksempelvis social medie-tjenester. Det man kan trække ud består typisk af data (Fx indholdet af en post eller kommentar) og  metadata (fx hvornår en post er lagt op af hvem og antallet af kommentarer, likes, etc. den har fået). APIer har gjort det nemmere for forskere at få adgang til helt unikke data om fx social adfærd og sproglig udvikling i meget stor skala. Det er ikke unormalt at man kan adgang til informationer om millioner af brugere på en social medie-tjeneste på denne måde - et helt uhørt stort tal sammenlignet med traditionelle metoder til dataindsamling (som fx spørgeskemaundersøgelser). Samtidig er det en meget sårbar metode, hvor man som forsker gør sig afhængig af fortsat adgang til databaser, som typisk ejes og kontrolleres af kommercielle aktører med andre formål end at bedrive forskerservice. Flere store sociale netværkstjenester har allerede lukket eller begrænset adgangen til deres APIer for forskere (Bruns 2019 Links to an external site.). 

  2. Gennem værktøjer

Den anden vej som mange forskere har benyttet er at stå for dataindsamlingen selv igennem digitale værktøjer. Det har den store fordel at man som forsker selv kan kontrollere indsamlingsprocessen og databehandlingen, men er væsentlig mere resourcekrævende da man selv skal rekruttere deltagere og vedligeholde værktøjerne. Samtidig kan indsamlingsprocessen hæmme datakvaliteten, da deltagerne typisk er bevidste om at de bliver overvåget af værktøjerne mens indsamlingen foregår. Ikke desto mindre har digitale værktøjer vundet indpas netop fordi man kan kontrollere indsamlingen og adgangen til data selv. Det er ofte muligt at benytte de indbyggede sensorer på folks egne mobiltelefoner til at studere adfærd, fx i sundhedssammenhænge (Sim 2019 Links to an external site.).

____________________________________________________________

 

Predicting your social interactions, TED Talk

Sune Lehman fra DTU/Copenhagen Center for Social Data Science, KU, forklarer i denne TED Talk Links to an external site. (14 minutter) hvordan digitale data fra mobilapps kan bruges til at forstå sociale netværk i praksis.
Videoen er på engelsk.

____________________________________________________________

 

Literature.png Hvilke særlige udfordringer er knyttet til analyse af digitale data?

Selvom internettet og digitale værktøjer har givet os muligheder for at indsamle nye typer data samt større mængder af empiri, så er digitale data ikke nødvendigvis af højere kvalitet end traditionelle typer af data (fx indsamlet gennem spørgeskemaer, eksperimenter, observationer eller interviews).

Der knytter sig en række problemstillinger til brugen af digitale data i forskningssammenhæng, hvor to af de mest fremtrædende er:

 1. Hvem bliver repræsenteret i data?

Mange undersøgelser benytter data fra sociale medietjenester (fx Facebook og Twitter) til at studere menneskelig aktivitet i bred forstand, fx mentalt velvære, politiske deltagelse, eller socialt engagement. Det er imidlertid vigtigt at man er opmærksom på at brugerne på sociale medier typisk ikke repræsenterer den generelle befolkning, men afviger i systematisk grad. Typisk er de bedre uddannede og/eller har en højere teknologisk forståelse end dem som ikke bruger sociale medietjenester (Hargittai 2018 Links to an external site.). Derudover er alle brugerne ikke lige tilbøjelige til at optræde i data. Hvis man eksempelvis kigger på indholdsdeling, så peger forskningen på at en lille andel af brugerskaren står for langt størstedelen af indhold som deles på sociale medier (se fx 90-9-1 fordelingen Links to an external site.). Problemet med super-brugere der står for størstedelen af indholdsdelingen (se et eksempel af Facebook-brugere Links to an external site.) gør at dem der råber højest (og oftest) i de digitale fora bliver bedst repræsenteret i data.

Hvis man er interesseret i at sige noget om befolkningens holdninger til et spørgsmål, er det selvsagt en udfordring at bero udelukkende på data fra tjenester som a) store dele af befolkningen ikke bruger eller bruger i langt mindre grad og b) de fleste af brugerne ikke udtrykker sig på særlig ofte.

 2. Hvordan sikrer man deltagernes anonymitet?

En helt anden udfordring, som især knytter sig til indsamlingen af store datasæt, er anonymitet. Almindeligvis sikrer man anonymitet i forskning ved enten at fjerne alle informationer der direkte identificerer deltagerne (fx navn, cpr-nummer, adresse) eller benytte sig af pseudonymer (opfundne oplysninger der erstatter den identificerbare information). Når man arbejder med data hvor der er mange observationer for hver deltager bliver det straks sværere, da kombinationerne af observationer kan være nok til at identificere ellers anonyme deltagere. Prøv at se hvor nemt det er at identificere en person udelukkende på baggrund af oplysninger om hvilket land de kommer fra, hvornår de er født, hvilket køn de har, osv Links to an external site.. Det samme gør sig gældende for metadata, hvor en tilstrækkelig stor præcision i data, fx hvor man typisk bevæger sig rundt baseret på GPS-tracking Links to an external site., alene er nok til at forskere kan identificere individer i datasæt.

____________________________________________________________

COBL_onlinediscussion_40x40px_2017_6-1.png Refleksionsøvelse

  1. Hvordan ser du fordele og ulemper ved brugen af digitale data i dit studie? Tænk gerne på konkrete projekter, fx en øvelse du skal lave eller en eksamensopgave.
  2. Hvordan kunne man løse de to udfordringer der fremhæves ved digitale data?

____________________________________________________________

 

KUminilogo.JPG Ressourcer på Københavns Universitet

Se KUs retningslinjer for indsamling og opbevaring af persondata:

KUnet > Studieinformation > [Vælg din studieportal] > Planlæg dit studie > Regler og dispensationer > Sådan indsamler og håndterer du persondata.

____________________________________________________________

 

FieldTrip.png Hvis du vil vide mere

____________________________________________________________