Datakilder og dataværktøjer

 

  Tid

Lektionen tager ca. 15 minutter at gennemgå. 

 

Informationssøgning-1.png Om lektionen 'Datakilder og dataværktøjer – en kort introduktion' 

Som beskrevet i lektion 1-3 inden for emnet “Digital undersøgelse og metode” kommer data i mange forskellige former og formater. Nogle gange vil du selv være ude og indsamle dine egne data, men som også beskrevet kan dette være en tids- og ressourcekrævende proces.

Hvis du ikke selv indsamler dine egne data, skal du finde dem et sted, og vi kommer her med nogle forslag til, hvor du kan starte med at kigge. Vi vil desuden præsentere dig for eksempler på software og programmeringssprog, du kan bruge i forskellige faser af dit arbejde med data. Der er på ingen måde tale om en komplet liste, men blot eksempler.

 

COBL_learningoutcome_40x40px_2017_15.png  Læringsmål 

Når du har gennemført lektionen, forventer vi at du:

  • Har tilegnet dig kendskab om, at forskellige typer software kan benyttes i forskellige faser af den empiriske proces
  • Har tilegnet dig kendskab om, at programmeringssprog giver mulighed for automatisering
  • Har tilegnet dig kendskab om, hvor du kan finde åbne datasæt
  • Har tilegnet dig kendskab om, hvilke typer software KU stiller til rådighed
  • Har tilegnet dig kendskab til, hvilke services KUB Datalab tilbyder

 

image-4f5047bb-9c7a-4224-a216-1e603987dd62.png Kilde

Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.

Fagansvarlige:

  • Christian B. Knudsen, specialkonsulent, Københavns Universitetsbibliotek
  • Daniel H. Pryn, specialkonsulent, Københavns Universitetsbibliotek

__________________________________________________________

 

 COBL_litterature_40x40px_2017_18.png Hvor kan man finde datasæt?

Åbne data er data, som kan tilgås og bruges gratis af alle, og du kan finde åbne data, der kan bruges til dataanalyse og datavisualisering mange steder. Her er nogle eksempler:

  • Sociale medier: Sociale medier som Twitter og Reddit kan også være en kilde til åbne data, da mange brugere deler oplysninger og data om forskellige emner. Dette kan være en god kilde til real-time-data og data om aktuelle begivenheder.

Du skal huske, at åbne data ikke altid er komplette eller præcise, og det derfor er vigtigt, at du verificerer dem og er opmærksom på eventuelle bias eller fejl, når du anvender dem i din analyse. Husk også at være opmærksom på, at adgangen til data fra medier og virksomheder kan ændres eller helt forsvinde uden varsel. Desuden skal du også være opmærksom på, at blot fordi data er tilgængelige, er det ikke sikkert, du må benytte dem til det formål, du ønsker. Undersøg derfor altid dette med leverandøren af data.

Hos KUB Datalab kan du finde en oversigt med mange eksempler på åbne data: https://kub.kb.dk/datalab/opendata Links to an external site.

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Adgang og hjælp til software

Københavns Universitet stiller en række forskellige programmer til rådighed for ansatte og studerende. Nogle af dem er tilgængelige for alle og andre for specifikke institutter eller fakulteter. Det giver derfor ikke mening at remse dem alle op her. Besøg selv Softwarebiblioteket på KUnet, og se, hvilke programmer du har adgang til.

Du skal huske, at din adgang til licensbelagt software gennem Softwarebiblioteket forsvinder, når du ikke længere er studerende eller ansat ved Københavns Universitet.

Praktisk taget al software vil komme med dokumentation, eksempler og hjælpefiler, men du vil opleve, at omfanget og kvaliteten kan variere meget. Særligt for gratis software kan dokumentationen være sparsom. Til gengæld vil du ofte kunne finde blogopslag, YouTube-videoer og online tutorials, der i detaljer viser, hvordan du løser en bestemt opgave i et specifikt program.

KUB Datalab Links to an external site., som er en del af Københavns Universitetsbibliotek, tilbyder desuden gratis hjælp og undervisning til studerende og undervisere i mange forskellige programmer og programmeringssprog. Dette gælder både nogle af de programmer, som findes i Softwarebiblioteket, og anden open source-software.

Nedenfor kan du få et overblik over, hvilke programmer og programmeringssprog, der i skrivende stund tilbydes hjælp til:

__________________________________________________________

 

Tools_forms[1].png  Værktøjer til dataanalyse og visualisering

 

Værktøjer til kvalitativ dataanalyse

NVivo Links to an external site. og Voyant Tools Links to an external site. er programmer, du kan bruge til at analysere kvalitative data, dvs. data, der generelt ikke måles på en skala, men som beskrives ved hjælp af ord eller kategorier. NVivo er et program, der kan hjælpe dig med at organisere, kode og analysere kvalitative data, fx tekst, billeder og lydoptagelser. Voyant Tools er en samling af webbaserede værktøjer, der hjælper dig med at analysere store mængder tekst, fx ved at visualisere frekvenser af ord eller fraser. Begge værktøjer er nyttige til at hjælpe med at forstå og kategorisere kvalitative data, så du kan drage konklusioner fra dem.

Værktøjer til kvantitativ dataanalyse

OpenRefine Links to an external site. er et program, du kan bruge til at rense, organisere og transformere data. Det gør det nemt at finde og rette fejl i data, fx stavefejl, tomme felter eller inkonsistens i formateringen. OpenRefine giver dig også mulighed for at finde og flette duplikerede rækker og kan håndtere store mængder data effektivt. Særligt hvis du har data, der trænger til at blive renset eller struktureret bedre, er OpenRefine nyttigt.

Excel Links to an external site. er et regnearksprogram, der bruges til at organisere og analysere data. Det er et nemt værktøj at bruge og har en række indbyggede funktioner, der gør det nemt for dig at lave simple statistiske analyser, grafer og tabeller. Excel er især nyttigt til at arbejde med data, der ikke er for store eller komplicerede, men det kan også bruges til at håndtere store datamængder, hvis du er bekendt med de avancerede funktioner.

STATA Links to an external site. er et statistikprogram, der bruges til at analysere kvantitative data. Det har et stort udvalg af funktioner, der gør det nemt at lave statistiske analyser, visualiseringer og tabeller. STATA er især nyttigt, når du arbejder med større mængder data, og det har funktioner, der gør det nemt at lave avancerede analyser.

Værktøjer til datavisualisering

Der findes mange forskellige værktøjer til at lave datavisualiseringer, og valget af værktøj afhænger af, hvilken type data du har, og hvilken type visualisering du ønsker.

Et af de programmer, der er populært til at lave datavisualiseringer, er VOSviewer Links to an external site.. VOSviewer bruges især til at visualisere og analysere forbindelser og netværk imellem data. Det er udviklet til at visualisere netværk i forskningspublikationer, fx antallet af publikationer inden for et givent fagområde, men du kan også bruge VOSviewer til at visualisere andre typer data, fx data om virksomheder eller personer.

Det måske mest brugte program til visualisering af kvantitative data er Excel Links to an external site., der gør det muligt for dig hurtigt at lave diagrammer og grafer. Det er nemt at bruge og kan som beskrevet ovenfor håndtere relativt store mængder data.

Generelle værktøjer

R Links to an external site. og Python Links to an external site. er to programmeringssprog, du kan bruge til alle trin i arbejdet med data. De er begge open source og har et stort fællesskab af brugere og udviklere, der bidrager med værktøjer og pakker til at gøre det lettere at arbejde med data.

R er et sprog, der især er populært inden for statistisk analyse og datavisualisering. Sproget er – for et programmeringssprog – relativt let at lære og har et stort online community. R er også godt, hvis du skal arbejde med meget store mængder data.

Python er et sprog, der anvendes inden for en bred vifte af områder, herunder dataanalyse. Det har et stort udvalg af pakker, der gør let for dig at arbejde med data, fx pakker til at læse og skrive filer og pakker til at høste data fra internettet. Python er særligt godt, hvis du har behov for at automatisere opgaver, og det er et godt valg, hvis du ønsker at integrere din dataanalyse med andre værktøjer eller systemer.

Der er mange måder, hvorpå du kan bruge programmeringssprog til at automatisere indsamling og analyse af data. Fx kan du skrive kode, der kan hente data fra internettet ved hjælp af såkaldte "web scrapers", som kan indsamle data fra websites eller APIer . Du kan også skrive kode, der automatisk kan læse og importere data fra filer, fx regneark.

  Hvad er en API?

API står for Application Programming Interface, og det er en grænseflade mellem to softwareapplikationer, der giver mulighed for, at de kan kommunikere med hinanden. En API beskriver, hvordan en tredjepartsapplikation (såsom en brugers kode i Python eller R) kan anmode om data eller tjenester fra et andet system og modtage en respons.

De generelle programmeringssprog gør det også muligt at udvikle nye værktøjer til at arbejde med data. Et eksempel er Orange Links to an external site., der er udviklet i Python, og giver dig en række interaktive værktøjer og visuelle repræsentationer til at arbejde med data. Det er let at bruge og kan håndtere en række forskellige datakilder. Orange kan også bruges til at skabe og dele dataanalyseprojekter med andre og understøtter også maskinlæring.

I modsætning til de specialiserede værktøjer til at arbejde med data er egentlige programmeringssprog normalt mere komplekse at bruge og har en stejlere læringskurve. Omvendt er der i princippet ingen begrænsninger for, hvad du kan gøre med programmeringssprogene. Du vil med andre ord opleve, at det er en balance, hvor det mere brugervenlige værktøj er mindre fleksibelt, mens det meget fleksible værktøj ofte er mere komplekst.

__________________________________________________________

 

COBL_fieldtrip_40x40px_2017_8.png  Hvis du vil vide mere

__________________________________________________________