Hvad er data, og hvordan adskiller det sig fra information og viden?

Time (1)-3.png  Tid

Lektionen tager ca. 20 min. at gennemgå.

 

Informationssøgning (1).png Om lektionen 'Hvad er data, og hvordan adskiller det sig fra information og viden?' 

For at kunne forstå begreber som data, dataindsamling, databehandling, dataanalyse etc. er det nødvendigt først at forstå, hvad data overhovedet er for noget – og også hvad data ikke er. Data, information og viden er populære begreber, der ofte benyttes i flæng og i mange forskellige sammenhænge. For at forstå deres betydning er det dog vigtigt at forholde sig til, hvordan disse termer adskiller sig fra hinanden. 

I denne lektion får du først en introduktion til begreberne data, information og viden, og hvordan de relaterer sig til hinanden. Herefter vil du blive introduceret til forskellige typer af data. Du vil blive præsenteret for forskellene på primære og sekundære data, kvalitative og kvantitative data samt strukturerede og ustrukturerede data. 

 

COBL_learningoutcome_40x40px_2017_15.png  Læringsmål 

Når du har gennemført lektionen, forventer vi at du: 

  • kan gengive forskellen på begreberne data, information og viden.
  • kan beskrive og identificere kvantitative og kvalitative data.
  • kan beskrive og identificere primære og sekundære data.
  • kan benævne forskellen på strukturerede og ustrukturerede data.

 

image-4f5047bb-9c7a-4224-a216-1e603987dd62.png  Kilde

Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.

Fagansvarlige:

  • Christian B. Knudsen, specialkonsulent, Københavns Universitetsbibliotek (KUB)
  • Daniel H. Pryn, specialkonsulent, Københavns Universitetsbibliotek (KUB)

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Data, information og viden

Vi tager udgangspunkt i en hierarkisk opdeling, der ofte betegnes som “videnspyramiden”. Der findes mange variationer af pyramiden, og nogle af dem tilføjer begreber såsom “indsigt” og “visdom” til opdelingen, men vi vil her fokusere på en tredeling bestående af begreberne “data”, “information” og “viden”.

Pyramide – Data-Information-Viden.png

Illustrationen er tilpasset fra: Rowley, J. (2007). The wisdom hierarchy: representations of the DIKW hierarchy. Links to an external site. Journal of Information Science, 33 (2), s. 163-180. 

Data kan beskrives som rå input ved en given observation, der fungerer som mindsteenhed for den analyse, der ønskes foretaget. Data er således ufortolket og er det grundlæggende materiale, der anvendes til at skabe information og viden. 

Information er fortolket data. Der er altså tale om data, der er behandlet på en given måde, og denne behandling kan eksempelvis bestå i en beskrivelse, en organisering eller en kontekstualisering af data til et givent formål. Information kan med andre ord beskrives som organiseret data, der har en betydning eller mening.

Hvad der er data i en analyse, kan derfor godt være information i en anden. Ønsker man eksempelvis at tælle Holbergs samlede værker, vil hvert enkelt værk kunne tolkes som data. Ønsker man derimod at analysere Holbergs samlede værker, vil indholdet af et givent værk kunne tolkes som information. Viden er det mest komplekse begreb af de tre. Viden er erfaring, indsigt og forståelse, der er opnået gennem læring eller eftertanke. Viden er en integreret del af vores forståelse af verden og er baseret på information, der er bearbejdet og anvendt i en meningsfuld sammenhæng. Viden kan beskrives som principiel forståelse af information og som evnen til at dekonstruere en given information og besvare spørgsmålet om, hvorfor denne information beskriver, hvad den gør. En sådan dekonstruktion vil naturligt lede til en beskrivelse af sammenhængen mellem flere underliggende informationer, og viden beskriver derved også evnen til at sammensætte to eller flere informationer og derudaf udlede noget mere, end hvad der i forvejen er givet.

Sammenhængen mellem data, information og viden kan illustreres således:

Graf – Data-Information-Viden.png

Figuren er tilpasset fra: Bellinger, G., Castro, D. & Mills, A. (2004). Data, Information, Knowledge, and Wisdom. Links to an external site.

 

En anden måde at illustrere sammenhængen mellem data, information og viden er denne: 

DataInformationKnowledge.png

Tilføjer man de tidligere kort omtalte begreber “indsigt” og “visdom” (samt en lille smule humor), kan ovenstående illustration udbygges således: 

InsightWisdomConspiracyTheory.png

Illustration af David Somerville (http://www.smrvl.com/blog Links to an external site.) baseret på original af Hugh McLeod (https://www.gapingvoid.com/team-members/hugh-macleod/ Links to an external site.)  
unicorn/conspiracy tilføjet af anonym

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Eksempelforskellen mellem data, information og viden 

For at uddybe forskellen mellem data, information og viden kan du tænke på et eksempel. Lad os sige, at du vil undersøge, hvad der påvirker plantevæksten i din have. Du begynder med at indsamle data om faktorer såsom jordens pH-værdi, mængden af solskin, mængden af vand, der gives til planterne etc. Disse data er rå observationer, målinger eller tal, der ikke er meningsbærende i sig selv. 

Næste trin er at bearbejde og organisere data på en meningsfuld måde. Du kan f.eks. lave en tabel, hvor du noterer hver enkelt faktor og måler den på en skala (f.eks. pH-værdi: 6, solskin: 8 timer om dagen, mængde vand: 500 ml om dagen etc.). Dette kan hjælpe dig til at skabe information om, hvilke faktorer der påvirker plantevæksten i din have. 

Til sidst kan du anvende informationen til at skabe viden om, hvorledes de forskellige faktorer påvirker hinanden og se mønstre i relationerne mellem solskin, mængde vand og pH-værdi. Måske vil du opdage, at planter, der udsættes for høj mængde solskin og lille mængde vand, trives bedre, hvis de befinder sig i jord med lav pH-værdi. Herfra vil du kunne formulere hypoteser om, hvorledes de forskellige faktorer interagerer og påvirker hinanden. Du begynder altså at skabe ny viden om planternes vækst, som er mere end blot summen af de givne informationer. Denne viden kan du derefter anvende til at træffe beslutninger om, hvordan du skal dyrke dine planter, og hvilke faktorer du skal tage hensyn til for at få dem til at vokse bedst muligt.

  Hvornår er data data? Og hvornår er information information?

Data er det rå input ved en given observation, og data indtager en elementær eksistens i vores erkendelse af verden. Dette betyder dog ikke, at data i sig selv er elementær, men blot at data er elementær i den erkendende kontekst. Data kan derved forstås som den nødvendige mindsteenhed, før en given observation bliver til en erkendelse, og hvad der er data for én person, kan derfor være information om data for en anden. En observation kan eksempelvis være, at det regner, og stopper observationen der, vil ”det regner” være mindsteenheden for den pågældende observation, hvorved observationen af regnvejr bliver data. Foretages denne observation derimod af en meteorolog, vil observationen af regnvejret muligvis ses som en information om, at et lavtryk har dannet sig (grundet den viden, meteorologen er i besiddelse af). I den sammenhæng bliver dannelsen af lavtrykket data og regnvejret information. Nævnte eksempel er dog ikke uproblematisk, for i praksis er det svært at forestille sig en ”ren” observation, hvor ingen yderligere erkendelse finder sted end den blotte observation. Eksempelvis vil regnvejret naturligt lede til en erkendelse af, at man bliver våd, hvis man går udenfor. Endnu sværere er det at beskrive en sådan observation ”rent”, da enhver beskrivelse vil være sproglig, hvorved en fortolkning og erkendelse automatisk finder sted. Idet observationen bliver til en fortolkning, er der ikke længere tale om data, men derimod om information.

Data skal altid forstås som data for en given observationsmæssig kontekst, og det, der udgør data i én observation, er ikke nødvendigvis data i en anden observation. Dette leder tilbage til den oprindelige definition af data som elementær for en given observation. Ikke fordi det konkrete data ikke kan splittes, men fordi det konkrete data mister sin karakter af data (og bliver til information), hvis en sådan splittelse finder sted.

Et andet eksempel kunne være:

En bog, i og for sig selv, kan også anses som data, men bliver til information(er), idet der læses i den. Alt efter hvem der foretager denne læsning, vil forskellige (eller sågar modstridende) informationer blive udledt.

Er denne bog skrevet på kinesisk, vil de fleste danskere være ude af stand til at læse i den. Det vil sige, at ingen forståelse kan finde sted (for disse ikke-kinesiskkyndige), og bogen forbliver derfor data inden for pågældende kontekst.

Med pågældende kontekst menes der her den sproglige fortolkningsmæssige kontekst. Som beskrevet ovenfor er det dog svært at forestille sig en situation, hvor ingen information overhovedet udledes af et givent sæt data, og i nærværende eksempel vil den blotte erkendelse af, at der er tale om en bog, i sig selv være en information om en række egenskaber, såsom at den indeholder sider, at den har (mindst) en forfatter etc. Disse informationer ligger dog uden for konteksten af det beskrevne eksempel.

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Alle studerende arbejder med data!

Når folk taler om data, kommer man meget let til kun at tænke på kvantitative data. Det vil sige ting, der kan måles og vejes og sættes ind i et Excel-ark. Dette er dog, som du forhåbentlig nu er klar over, langt fra tilfældet. Nogle data er rigtig nok observationer opsat i Excel-ark eller lignende, men data bruges på alle universitetsstudier og tager mange andre former afhængigt af fag og emne.

Læser du litteraturhistorie? I så fald kan Brandes’ samlede værker være de data, du arbejder med. Når du læser og tager noter, udleder du information fra de grundlæggende data, der er værkerne. Og efterfølgende skaber du viden ved at syntetisere den information, du skaffede ved læsningen. Du kan selvfølgelig også trække information ud ved rene digitale metoder, hvor du lader computeren “læse” værkerne, men værkerne er stadig dine primære data.

Er du jurastuderende? Domme og lovforarbejder er vigtige retskilder. Når du tygger dig gennem bemærkningerne til Lov om offentlighed i forvaltningen, interagerer du direkte med data, der efter en nærmere analyse forklarer, hvornår et dokument er en ekstern faglig vurdering, og hvornår den er intern. Digitaliserede analyser af domme kan styrke forsvarsadvokaters arbejde eller automatisere mere rutinepræget udarbejdelse af dokumenter. Dette område kaldes ofte “legal tech”.

Som studerende inden for de natur- eller sundhedsvidenskabelige fag er der meget data, du har let ved at erkende som data. Koncentrationen af kalium i patienternes blod, pH under en titrering eller antallet af sæler i et bestemt farvand er oplagte eksempler på data. Men også ting, du måske ikke umiddelbart tænker på som data, kan være data. Røntgenbilleder kan betragtes som data – fotos fra vildtkameraer eller patientbeskrivelser ligeså. Her kan du også ofte lade computeren gøre arbejdet – men uanset om det er computeren eller dig, der ser, om der er en grævling på fotoet, sker der behandling af data.

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Betegnelser for forskellige typer af data

Når man taler om data, bruger man ofte de nedenstående kategoriseringer til at betegne forskellige typer af data: 

  Primære og sekundære data

Primære data kan groft defineres som data, der er indsamlet direkte fra kilden, f.eks. gennem observationer, spørgeskemaer, interviews eller eksperimenter. Primære data er ofte specifikke for en given undersøgelse og er ikke tilgængelige fra andre kilder.

Sekundære data er data, der er indsamlet i en anden sammenhæng end det aktuelle studie. Sekundære data er ofte allerede bearbejdet og organiseret på en meningsfuld måde og er tilgængelige fra f.eks. bøger, artikler, rapporter, statistikker eller offentlige databaser.

Der kan dog være tilfælde, hvor sondringen ikke er helt så enkel. I eksempelvis et litteraturstudie kan det være litteraturen selv, der er forskningsobjektet, og derfor kan litteraturen benyttes som primære data i denne sammenhæng. I et litteraturstudie kan du f.eks. undersøge, hvordan skønlitterære værker reflekterer samfundsmæssige strukturer eller ideer, hvordan de påvirker læserens opfattelse af verden, eller hvordan de udtrykker forfatterens holdninger og meninger. I dette tilfælde vil værkerne være primære data, og resultaterne af litteraturstudiet vil kunne anvendes som sekundære data af andre.

Der er fordele og ulemper ved at bruge primære og sekundære data i forskning. Primære data er ofte mere relevante for den undersøgelse, du foretager, men de kan være tidskrævende at indsamle. Sekundære data kan være nemmere og hurtigere at få adgang til, men de kan være mindre relevante for den undersøgelse, du foretager, da de ikke er specifikt indsamlet til formålet. (Bemærk at dette er en generalisering, og at der vil være tilfælde, hvor det modsatte gør sig gældende. Det vil altid være afhængigt at den konkrete indsamling og de specifikke data, du har brug for at indsamle.)

  Kvalitative og kvantitative data

Kvalitative data er data, der beskriver egenskaber ved en ting eller en situation. Dette kan være følelser, holdninger, meninger, oplevelser eller beskrivelser af ting. Kvalitative data er ofte ikke målbare i konkrete tal, men kan for eksempel beskrives og analyseres ved hjælp af tekst, billeder eller lyd.

Kvantitative data er data, der beskriver kvantitative egenskaber ved noget, dvs. størrelser eller mængder. Det kan for eksempel måles ved at tælle eller veje. Eksempler på kvantitative data kan være antal, længde, vægt, temperatur, tid eller andre målbare størrelser.

Der kan dog være overlap. En tekst kan udtrykke en bestemt holdning, hvis karakter vurderes subjektivt, og som sådan er kvalitativ. Men givet et større antal tekster kan en optælling af, hvor mange der udtrykker en holdning, og hvor mange der udtrykker en anden holdning, føre til kvantitative data om fordelingen af kvalitative observationer. Ligeledes er der forskningsområder, hvor man arbejder med at kvantificere eksempelvis følelser og holdninger. Distinktionen mellem kvalitative og kvantitative data er med andre ord ikke altid helt så enkel.

Brugen af kvalitative vs. kvantitative data i forskning har forskellige styrker, alt efter hvad der undersøges. Kvalitative data kan ofte give indsigt i mening, motivation og subjektive oplevelser, mens kvantitative data kan give en mere generaliserbar forståelse af fænomener og kan anvendes til at teste hypoteser og teorier. Det er dog vigtigt at understrege, at dette kun er en generel beskrivelse af forskellen på brug af kvalitative og kvantitative undersøgelser. Inden for nogle studier vil man eksempelvis benytte kvantitative metoder til at undersøge subjektive forhold, og kvalitative metoder benyttes til tider også til at undersøge og forstå generelle fænomener. Overvej derfor nøje, hvordan metoderne bruges inden for dit eget fag.

  Strukturerede og ustrukturerede data

Strukturerede data er data, der er organiseret på en måde, der gør det nemt at søge, sortere og filtrere. Dette betyder, at der er en fast struktur for, hvordan data er opbygget og arrangeret. Et eksempel på strukturerede data er en database, hvor hver post har faste felter, og hver post kan sorteres og filtreres efter disse felter.

Ustrukturerede data er data, der ikke har en fast struktur. Dette betyder, at der ikke er en fast måde, hvorpå data er organiseret eller arrangeret, f.eks. hvis du har et tekstdokument eller en lydoptagelse af en samtale mellem to personer. Det er vanskeligere at søge, sortere og filtrere ustrukturerede data, fordi der ikke er en fast struktur, du kan benytte.

Overgangen mellem ustrukturerede og strukturerede data sker typisk ved, at data organiseres og bearbejdes til meningsfuld information. Dette kan ske ved hjælp af forskellige værktøjer og software afhængigt af formålet med indsamlingen af data og dermed også afhængigt af vurderinger af, hvad der er meningsfuldt og værdifuldt.

Spørgeskemaer kan eksempelvis indeholde ustrukturerede data i form af fritekst, og her kræver det en proces at strukturere data til meningsfuld information. Det kan ske ved at sortere data efter kategorier, tælle svar eller lave andre former for databehandling for at skabe strukturerede data i form af tabeller, diagrammer eller andre visualiseringer. Overgangen mellem ustrukturerede og strukturerede data er ofte flydende, da det kræver en proces for at strukturere og bearbejde data til meningsfuld information.

__________________________________________________________

 

COBL_skema_40x40px_2017_17.png  Eksempel på strukturerede data: Plantevækst

 

Foto af agurkplante og tomatplante

 

Hvis vi vender tilbage til undersøgelsen af plantevækst i forhold til solskinstimer, vanding og jordens pH-værdi, kunne data f.eks. som udgangspunkt se således ud:

mlvand/timer solskin/ph/vækst cm         20/6        21/6        22/6        23/6
tomater  500/6/7/10  400/8/6.5/12 300/4/7/14 450/7/6,8/16
agurker  500;6;7;8      400;8;6,5;10  300;4;7;12  350;5;7.2;14

 

Rensning og organisering af data kræver typisk flere trin, og en god tommelfingerregel, er at 80 % af tiden bruges på netop rensning af data, mens 20 % bruges på analyse af data. Her har vi bragt data på en mere struktureret form, der er lettere at søge i og arbejde med:

Dato

Grøntsag

Vanding (ml)

Solskin (timer)

pH af jord

Vækst (cm)

2023-06-20

Tomater

500

6

7.0

10

2023-06-20

Agurker

500

6

7.0

8

2023-06-21

Tomater

400

8

6.5

12

2023-06-21

Agurker

400

8

6.5

10

2023-06-22

Tomater

300

4

7.0

14

2023-06-22

Agurker

300

4

7.0

12

2023-06-23

Tomater

450

7

6.8

16

2023-06-23

Agurker

350

5

7.2

14

 

__________________________________________________________

 

COBL_videolecture_40x40px_2017_4.png  Eksempel på, hvordan du kan skabe struktur i en interviewoptagelse

Et eksempel på et trin i strukturering af data kan være behandling af interviewoptagelser på lyd eller video. Det kræver en proces at strukturere sådanne data til meningsfuld information. En del af denne transformation kan ske ved, at du transskriberer og renser tekstdata og derefter sorterer efter kategorier, tæller svar eller laver andre former for databehandling. På den måde får du organiseret dine data, og du gør dem nemmere at overskue, bearbejde og anvende til at drage konklusioner.

Se et eksempel på, hvordan du kan strukturere data fra interviewoptagelser her:

Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.

__________________________________________________________

 

COBL_quiz_40x40px_2017_1.png  Tjek om du har styr på data, information og viden

Vi har lavet en lille quiz, som du kan bruge til at tjekke om du har styr på de betegnelser, vi har præsenteret i lektionen.

Gå til quizzen.

__________________________________________________________

 

COBL_fieldtrip_40x40px_2017_8.png  Hvis du vil vide mere

Her kan du finde mere om data i videnskabelig sammenhæng:

__________________________________________________________