Digitale data som grundlag for viden

 Tid

Lektionen forventes at tage ca. 1 time at gennemføre, hvis du læser teksten på siden, ser videoen og laver øvelserne. Hvis du vil vide mere, kan du følge links til anbefalet materiale.

 

  Om lektionen 'Digitale data som grundlag for viden'

Lektionen giver dig en introduktion til de særlige problemstillinger, der knytter sig til indsamling og brug af digitale data til vidensproduktion. Her er fokus både på data indsamlet direkte fra personer (f.eks. gennem forskerdrevne tracking-apps) og data fra internet-services (fx sociale medier og mobile apps). I lektionen behandles både de udfordringer, der kan være med kvaliteten af indsamlede digitale data og med repræsentationen af individer baseret på digitale data og metadata. Efter at have gennemgået lektionen kan du skelne mellem data og metadata samt identificere og diskutere nogle af de muligheder og udfordringer, der er ved at arbejde med digitale data.

 

 Læringsmål

Når du har gennemført lektionen, forventer vi, at du:

  • forstår muligheder og begrænsninger i analyser af digitale data.
  • kan reflektere over brug af data og metadata i din egen vidensproduktion.

 

  Kilde

Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.

Fagansvarlig:

  • Jacob Ørmen, tenure track-adjunkt, Institut for kommunikation.

____________________________________________________________

 

  Hvad er digitale data?

Internettet og mobile enheder har gjort det muligt at indsamle store mængder og meget detaljerede digitale data om folk. Digitale data tilbyder derfor unikke forskningsmuligheder, men forstærker samtidig kendte udfordringer fra indsamling og analyse af data. 

Digitale data kan overordnet set defineres som information, der er afgrænset af et numerisk system (typisk lagret som computerkode i nuller og et-taller), modsat analoge data, der er kontinuerte og kan afsendes gennem f.eks. radiobølger eller opbevares fysisk f.eks. på papir eller vinylplader. Men i en tid hvor størstedelen af den information, som produceres, er digital, giver denne skelnen ikke den store klarhed. Derimod er det mere hjælpsomt at tænke digitale data primært som de informationer, der er født digitale (modsat de informationer der digitaliseres), og som oftest tilgås i databaser eller indsamles ved hjælp af digitale værktøjer (i modsætning til f.eks. interviews eller manuelle spørgeskemaundersøgelser). 

I forskningssammenhæng er det afgørende nye ved digitale data:

  • Mængden af information, der er tilgængelig. Digitale data har gjort det muligt at studere menneskers adfærd i en hidtil uset skala (det som nogen kalder 'big data') gennem de digitale spor, som vores adfærd på internettet efterlader (Nature 2021 Links to an external site.). Det har muliggjort at vi kan studere flere mennesker på samme tid, over længere tid og gennem metoder, der er mindre indgribende i forskningsdeltagernes adfærd (f.eks. gennem passiv tracking i stedet for laboratorieeksperimenter).

  • Typen af informationer, vi kan indsamle. Den centrale type her er metadata, som er 'information om information'. Når man eksempelvis tager et fotografi med sin telefon, så lagrer telefonen en række metadata sammen med fotografiet såsom informationer om, hvor og hvornår billedet er taget, hvilke indstillinger der er brugt osv. Computersystemer genererer ofte metadata for at holde styr på processerne (derfor kaldes det også 'log data' i nogle sammenhænge, da dataene bogstaveligt talt er systemets logbog). Indsamlingen af metadata er grundlæggende for, hvordan regeringer og virksomheder overvåger folks adfærd på internettet både til kommercielle og politiske formål (se f.eks. diskussionen om overvågningskapitalismens trussel mod demokratiet Links to an external site.). Samtidig har metadata vist sig at være meget værdifuld empiri i forskningssammenhænge, fordi de kan give rige indsigter i social adfærd (f.eks. mobilitetsmønstre).

____________________________________________________________

 

 Refleksionsøvelse

Se, hvilke metadata hjemmesider kan hente om din browser gennem tracking og fingerprinting:

  1. Åbn værktøjet fra Electronic Frontier Foundation (EFF) Links to an external site.
  2. Tryk på "Test your browser" og vent til resultatet kommer frem på skærmen
  3. Scroll ned til "Detailed Results"
  4. Hvilke slags metadata indsamler tracking?
  5. Hvad siger det om, hvor anonym du er, når du browser rundt på internettet?

____________________________________________________________

 

  Hvordan indsamles digitale data til vidensproduktion?

Indsamling af digitale data sker typisk på to måder:

  1. Gennem databaser

Mange forskere benytter sig af forskningsbaserede såvel som kommercielle databaser til at tilgå digitale data. Især er det blevet populært at bruge Application Programming Interfaces (APIer) til at hente data fra eksempelvis social medie-tjenester. Det, man kan trække ud, består typisk af data (f.eks. indholdet af en post eller kommentar) og metadata (f.eks. hvornår en post er lagt op af hvem og antallet af kommentarer, likes, etc. den har fået). API'er har gjort det nemmere for forskere at få adgang til helt unikke data om f.eks. social adfærd og sproglig udvikling i meget stor skala. Det er ikke unormalt, at man kan adgang til informationer om millioner af brugere på en social medie-tjeneste på denne måde - et helt uhørt stort tal sammenlignet med traditionelle metoder til dataindsamling (som f.eks. spørgeskemaundersøgelser). Samtidig er det en meget sårbar metode, hvor man som forsker gør sig afhængig af fortsat adgang til databaser, som typisk ejes og kontrolleres af kommercielle aktører med andre formål end at bedrive forskerservice. Flere store sociale netværkstjenester har allerede lukket eller begrænset adgangen til deres API'er for forskere (Bruns 2019 Links to an external site.). 

  2. Gennem værktøjer

Den anden vej, som mange forskere har benyttet, er at stå for dataindsamlingen selv igennem digitale værktøjer. Det har den store fordel, at man som forsker selv kan kontrollere indsamlingsprocessen og databehandlingen, men er væsentlig mere resourcekrævende, da man selv skal rekruttere deltagere og vedligeholde værktøjerne. Samtidig kan indsamlingsprocessen hæmme datakvaliteten, da deltagerne typisk er bevidste om, at de bliver overvåget af værktøjerne, mens indsamlingen foregår. Ikke desto mindre har digitale værktøjer vundet indpas, netop fordi man kan kontrollere indsamlingen og adgangen til data selv. Det er ofte muligt at benytte de indbyggede sensorer på folks egne mobiltelefoner til at studere adfærd, f.eks. i sundhedssammenhænge (Sim 2019 Links to an external site.).

____________________________________________________________

 

  Predicting your social interactions (TED Talk)

Sune Lehman fra DTU/Copenhagen Center for Social Data Science, KU forklarer i denne TED Talk Links to an external site. (14 min.), hvordan digitale data fra mobilapps kan bruges til at forstå sociale netværk i praksis.

____________________________________________________________

 

  Hvilke særlige udfordringer er knyttet til analyse af digitale data?

Selvom internettet og digitale værktøjer har givet os muligheder for at indsamle nye typer data samt større mængder af empiri, så er digitale data ikke nødvendigvis af højere kvalitet end traditionelle typer af data (f.eks. indsamlet gennem spørgeskemaer, eksperimenter, observationer eller interviews).

Der knytter sig en række problemstillinger til brugen af digitale data i forskningssammenhæng, hvor to af de mest fremtrædende er:

 1. Hvem bliver repræsenteret i data?

Mange undersøgelser benytter data fra sociale medietjenester (f.eks. Facebook og Twitter) til at studere menneskelig aktivitet i bred forstand, f.eks. mental velvære, politisk deltagelse eller socialt engagement. Det er imidlertid vigtigt, at man er opmærksom på, at brugerne på sociale medier typisk ikke repræsenterer den generelle befolkning, men afviger i systematisk grad. Typisk er de bedre uddannede og/eller har en højere teknologisk forståelse end dem, som ikke bruger sociale medietjenester (Hargittai 2018 Links to an external site.). Derudover er alle brugerne ikke lige tilbøjelige til at optræde i data. Hvis man eksempelvis kigger på indholdsdeling, så peger forskningen på, at en lille andel af brugerskaren står for langt størstedelen af det indhold, som deles på sociale medier (se f.eks. 90-9-1 fordelingen Links to an external site.). Problemet med superbrugere, der står for størstedelen af indholdsdelingen (se et eksempel fra Facebook Links to an external site.), gør, at de, der råber højest (og oftest) i de digitale fora, bliver bedst repræsenteret i data.

Hvis man er interesseret i at sige noget om befolkningens holdninger til et spørgsmål, er det selvsagt en udfordring at bero udelukkende på data fra tjenester, som a) store dele af befolkningen ikke bruger eller bruger i langt mindre grad, og b) de fleste af brugerne ikke udtrykker sig på særlig ofte.

 2. Hvordan sikrer man deltagernes anonymitet?

En helt anden udfordring, som især knytter sig til indsamlingen af store datasæt, er anonymitet. Almindeligvis sikrer man anonymitet i forskning ved enten at fjerne alle informationer, der direkte identificerer deltagerne (f.eks. navn, cpr-nummer og adresse), eller benytte sig af pseudonymer (opfundne oplysninger, der erstatter den identificerbare information). Når man arbejder med data, hvor der er mange observationer for hver deltager, bliver det straks sværere, da kombinationerne af observationer kan være nok til at identificere ellers anonyme deltagere. Prøv at se hvor nemt det er at identificere en person udelukkende på baggrund af oplysninger om, hvilket land de kommer fra, hvornår de er født, hvilket køn de har osv Links to an external site.. Det samme gør sig gældende for metadata, hvor en tilstrækkelig stor præcision i data, f.eks. hvor man typisk bevæger sig rundt baseret på GPS-tracking Links to an external site., alene er nok til, at forskere kan identificere individer i datasæt.

____________________________________________________________

 Refleksionsspørgsmål

  1. Hvordan ser du fordele og ulemper ved brugen af digitale data i dit studie? Tænk gerne på konkrete projekter, f.eks. en øvelse, du skal lave, eller en eksamensopgave.
  2. Hvordan kunne man løse de to udfordringer, der fremhæves ved digitale data?

____________________________________________________________

 

Ku minilogo
  Ressourcer på Københavns Universitet

Se KU's retningslinjer for indsamling og opbevaring af persondata:

KUnet > Studieinformation > [Vælg din studieportal] > Planlæg dit studie > Regler og dispensationer > Sådan indsamler og håndterer du persondata

____________________________________________________________

 

  Hvis du vil vide mere

____________________________________________________________