Datakilder og dataværktøjer
Tid
Lektionen tager ca. 15 minutter at gennemgå.
Om lektionen 'Datakilder og dataværktøjer – en kort introduktion'
Som beskrevet i lektion 1-3 inden for emnet “Digital undersøgelse og metode” kommer data i mange forskellige former og formater. Nogle gange vil du selv være ude og indsamle dine egne data, men som også beskrevet kan dette være en tids- og ressourcekrævende proces.
Hvis du ikke selv indsamler dine egne data, skal du finde dem et sted, og vi kommer her med nogle forslag til, hvor du kan starte med at kigge. Vi vil desuden præsentere dig for eksempler på software og programmeringssprog, du kan bruge i forskellige faser af dit arbejde med data. Der er på ingen måde tale om en komplet liste, men blot eksempler.
Læringsmål
Når du har gennemført lektionen, forventer vi at du:
- Har tilegnet dig kendskab om, at forskellige typer software kan benyttes i forskellige faser af den empiriske proces
- Har tilegnet dig kendskab om, at programmeringssprog giver mulighed for automatisering
- Har tilegnet dig kendskab om, hvor du kan finde åbne datasæt
- Har tilegnet dig kendskab om, hvilke typer software KU stiller til rådighed
- Har tilegnet dig kendskab til, hvilke services KUB Datalab tilbyder
Kilde
Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.
Fagansvarlige:
- Christian B. Knudsen, specialkonsulent, Københavns Universitetsbibliotek
- Daniel H. Pryn, specialkonsulent, Københavns Universitetsbibliotek
__________________________________________________________
Hvor kan man finde datasæt?
Åbne data er data, som kan tilgås og bruges gratis af alle, og du kan finde åbne data, der kan bruges til dataanalyse og datavisualisering mange steder. Her er nogle eksempler:
- Offentlige myndigheder: Mange offentlige myndigheder såsom regeringer udgiver åbne data om emner som befolkning, økonomi, miljø, sundhed etc. Det kan være gode kilder til statistiske og andre typer af data. I Danmark er særligt Danmarks Statistik
Links to an external site. relevant.
- Dataportaler: Der findes mange dataportaler, der samler åbne data fra forskellige kilder. Nogle eksempler er datahub.io
Links to an external site., data.gov
Links to an external site. og datafordeler.dk
Links to an external site..
- Private virksomheder: Nogle private virksomheder udgiver også åbne data, fx om kundeadfærd, salg etc. Disse kan være en god kilde til forretningsrelaterede data.
- Videnskabelige undersøgelser: Mange videnskabelige undersøgelser genererer store mængder data, som kan være åbne og tilgængelige for andre forskere og interesserede. Disse data kan være gode kilder til data inden for specifikke fagområder. To eksempler på åbne videnskabelige datakilder er figshare.com Links to an external site. og zenodo.org Links to an external site..
- Sociale medier: Sociale medier som Twitter og Reddit kan også være en kilde til åbne data, da mange brugere deler oplysninger og data om forskellige emner. Dette kan være en god kilde til real-time-data og data om aktuelle begivenheder.
Du skal huske, at åbne data ikke altid er komplette eller præcise, og det derfor er vigtigt, at du verificerer dem og er opmærksom på eventuelle bias eller fejl, når du anvender dem i din analyse. Husk også at være opmærksom på, at adgangen til data fra medier og virksomheder kan ændres eller helt forsvinde uden varsel. Desuden skal du også være opmærksom på, at blot fordi data er tilgængelige, er det ikke sikkert, du må benytte dem til det formål, du ønsker. Undersøg derfor altid dette med leverandøren af data.
Hos KUB Datalab kan du finde en oversigt med mange eksempler på åbne data: https://kub.kb.dk/datalab/opendata Links to an external site.
__________________________________________________________
Adgang og hjælp til software
Københavns Universitet stiller en række forskellige programmer til rådighed for ansatte og studerende. Nogle af dem er tilgængelige for alle og andre for specifikke institutter eller fakulteter. Det giver derfor ikke mening at remse dem alle op her. Besøg selv Softwarebiblioteket på KUnet, og se, hvilke programmer du har adgang til.
Du skal huske, at din adgang til licensbelagt software gennem Softwarebiblioteket forsvinder, når du ikke længere er studerende eller ansat ved Københavns Universitet.
Praktisk taget al software vil komme med dokumentation, eksempler og hjælpefiler, men du vil opleve, at omfanget og kvaliteten kan variere meget. Særligt for gratis software kan dokumentationen være sparsom. Til gengæld vil du ofte kunne finde blogopslag, YouTube-videoer og online tutorials, der i detaljer viser, hvordan du løser en bestemt opgave i et specifikt program.
KUB Datalab Links to an external site., som er en del af Københavns Universitetsbibliotek, tilbyder desuden gratis hjælp og undervisning til studerende og undervisere i mange forskellige programmer og programmeringssprog. Dette gælder både nogle af de programmer, som findes i Softwarebiblioteket, og anden open source-software.
Nedenfor kan du få et overblik over, hvilke programmer og programmeringssprog, der i skrivende stund tilbydes hjælp til:
__________________________________________________________
Værktøjer til dataanalyse og visualisering
Værktøjer til kvalitativ dataanalyseNVivo Links to an external site. og Voyant Tools Links to an external site. er programmer, du kan bruge til at analysere kvalitative data, dvs. data, der generelt ikke måles på en skala, men som beskrives ved hjælp af ord eller kategorier. NVivo er et program, der kan hjælpe dig med at organisere, kode og analysere kvalitative data, fx tekst, billeder og lydoptagelser. Voyant Tools er en samling af webbaserede værktøjer, der hjælper dig med at analysere store mængder tekst, fx ved at visualisere frekvenser af ord eller fraser. Begge værktøjer er nyttige til at hjælpe med at forstå og kategorisere kvalitative data, så du kan drage konklusioner fra dem. |
|
Værktøjer til kvantitativ dataanalyseOpenRefine Links to an external site. er et program, du kan bruge til at rense, organisere og transformere data. Det gør det nemt at finde og rette fejl i data, fx stavefejl, tomme felter eller inkonsistens i formateringen. OpenRefine giver dig også mulighed for at finde og flette duplikerede rækker og kan håndtere store mængder data effektivt. Særligt hvis du har data, der trænger til at blive renset eller struktureret bedre, er OpenRefine nyttigt. Excel Links to an external site. er et regnearksprogram, der bruges til at organisere og analysere data. Det er et nemt værktøj at bruge og har en række indbyggede funktioner, der gør det nemt for dig at lave simple statistiske analyser, grafer og tabeller. Excel er især nyttigt til at arbejde med data, der ikke er for store eller komplicerede, men det kan også bruges til at håndtere store datamængder, hvis du er bekendt med de avancerede funktioner. STATA Links to an external site. er et statistikprogram, der bruges til at analysere kvantitative data. Det har et stort udvalg af funktioner, der gør det nemt at lave statistiske analyser, visualiseringer og tabeller. STATA er især nyttigt, når du arbejder med større mængder data, og det har funktioner, der gør det nemt at lave avancerede analyser. |
|
Værktøjer til datavisualiseringDer findes mange forskellige værktøjer til at lave datavisualiseringer, og valget af værktøj afhænger af, hvilken type data du har, og hvilken type visualisering du ønsker. Et af de programmer, der er populært til at lave datavisualiseringer, er VOSviewer Links to an external site.. VOSviewer bruges især til at visualisere og analysere forbindelser og netværk imellem data. Det er udviklet til at visualisere netværk i forskningspublikationer, fx antallet af publikationer inden for et givent fagområde, men du kan også bruge VOSviewer til at visualisere andre typer data, fx data om virksomheder eller personer. Det måske mest brugte program til visualisering af kvantitative data er Excel Links to an external site., der gør det muligt for dig hurtigt at lave diagrammer og grafer. Det er nemt at bruge og kan som beskrevet ovenfor håndtere relativt store mængder data. |
|
Generelle værktøjerR Links to an external site. og Python Links to an external site. er to programmeringssprog, du kan bruge til alle trin i arbejdet med data. De er begge open source og har et stort fællesskab af brugere og udviklere, der bidrager med værktøjer og pakker til at gøre det lettere at arbejde med data. R er et sprog, der især er populært inden for statistisk analyse og datavisualisering. Sproget er – for et programmeringssprog – relativt let at lære og har et stort online community. R er også godt, hvis du skal arbejde med meget store mængder data. Python er et sprog, der anvendes inden for en bred vifte af områder, herunder dataanalyse. Det har et stort udvalg af pakker, der gør let for dig at arbejde med data, fx pakker til at læse og skrive filer og pakker til at høste data fra internettet. Python er særligt godt, hvis du har behov for at automatisere opgaver, og det er et godt valg, hvis du ønsker at integrere din dataanalyse med andre værktøjer eller systemer. Der er mange måder, hvorpå du kan bruge programmeringssprog til at automatisere indsamling og analyse af data. Fx kan du skrive kode, der kan hente data fra internettet ved hjælp af såkaldte "web scrapers", som kan indsamle data fra websites eller APIer . Du kan også skrive kode, der automatisk kan læse og importere data fra filer, fx regneark.
De generelle programmeringssprog gør det også muligt at udvikle nye værktøjer til at arbejde med data. Et eksempel er Orange Links to an external site., der er udviklet i Python, og giver dig en række interaktive værktøjer og visuelle repræsentationer til at arbejde med data. Det er let at bruge og kan håndtere en række forskellige datakilder. Orange kan også bruges til at skabe og dele dataanalyseprojekter med andre og understøtter også maskinlæring. I modsætning til de specialiserede værktøjer til at arbejde med data er egentlige programmeringssprog normalt mere komplekse at bruge og har en stejlere læringskurve. Omvendt er der i princippet ingen begrænsninger for, hvad du kan gøre med programmeringssprogene. Du vil med andre ord opleve, at det er en balance, hvor det mere brugervenlige værktøj er mindre fleksibelt, mens det meget fleksible værktøj ofte er mere komplekst. |
__________________________________________________________
Hvis du vil vide mere
- SDU: Research Output & Impact Analyzed and Visualized: Tools n' stuff Links to an external site.
- Claus O. Wilke: Fundamentals of Data Visualization Links to an external site.
- Lektionen om 'Computational Thinking' under emnet 'Teknologisk forståelse'
- KUB Datalab Links to an external site.
- Softwarebiblioteket på KUnet
__________________________________________________________