Algoritmerne styrer dit søgeresultat

 Time (1)-3.png  Tid

Lektionen tager ca. 30 min. at gennemgå. Dertil kommer refleksionsøvelsen, som du meget gerne må lave i dialog med dine medstuderende.

 

Informationssøgning (1).png Om lektionen 'Algoritmerne styrer dit søgeresultat' 

I dagens digitale tidsalder er vi afhængige af at søge efter information online via søgemaskiner som Google, eller vi kan interagere med chatbots som ChatGPT og Copilot for at få svar på vores spørgsmål. Men hvad mange ikke er klar over, er, at de søgeresultater, vi får præsenteret, ikke bare er tilfældige. De er nøje udvalgt og arrangeret af komplekse algoritmer, der er designet til at sortere og rangere resultaterne efter relevans. Det er derfor vigtigt, at du som universitetsstuderende har en indsigt i, hvordan disse algoritmer fungerer, så du kan forholde dig kritisk til de søgeresultater, du får præsenteret. I denne lektion vil vi udforske, hvordan algoritmerne styrer dit søgeresultat, og hvordan det kan påvirke den information, du får adgang til online. Lad os sammen dykke ned i denne vigtige tematik og blive mere bevidste om, hvordan vi kan navigere i søgeresultaterne med en kritisk tilgang for at opnå mere pålidelige og nøjagtige resultater.

 

COBL_learningoutcome_40x40px_2017_15.png  Læringsmål 

Når du har gennemført lektionen, forventer vi, at du:

  • kan give en basal forklaring på, hvad en algoritme er.
  • kan beskrive, hvorfor en algoritme kan være 'biased' eller 'overfitted'.
  • kan give eksempler på faktorer, der påvirker søgeresultater i Google.
  • kan forklare, hvorfor det er vigtigt, at du forholder dig kritisk til oplysninger fra både søgemaskiner (f.eks. Google) og chatbots (f.eks. ChatGPT og Copilot).

 

image-6cb20fbf-08bf-48ce-9d2c-b580b192de2c.png Kilde

Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.

Fagansvarlige:

  • Birgitte Munk, specialkonsulent, Universitetsbibliotek (KUB)
  • Erik Engelbrekt Schwägermann, informationsspecialist, Universitetsbibliotek (KUB)
  • Anne Bagger, informationsspecialist, Universitetsbibliotek (KUB)
  • Muhamed Fajkovic, specialkonsulent, Universitetsbibliotek (KUB)

 

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Hvad er en algoritme, og hvordan opstår bias?

Denne video giver indblik i :

  • hvordan algoritmer via automatiseret beslutningstagning og fortolkning af enorme datamængder kan påvirke menneskers adfærd.
  • hvorfor koncepterne algoritmisk 'bias' og 'overfitting' er vigtige.
  • hvordan algoritmer kan påvirke samfundet.

Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Hvad sker der, når du søger på Google?

Denne video giver indblik i:

  • den betydning, algoritmer har i forhold til den information, du finder, når du søger online.
  • hvordan algoritmer kan påvirke den information, du få stillet til rådighed, når du søger efter information til din opgave.

Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Googles algoritmer og deres funktioner

Googles algoritmer udfylder mange forskellige funktioner, som du kan se af den kronologiske oversigt her:

Algoritmer

  Læs mere om algoritmer

Den ældste algoritme er linkanalyse-algoritmen Pagerank og desuden den eneste transparente, idet den i sin tid blev patenteret. Pagerank vurderer populariteten af websites dels ved at tjekke antal links ind til et website, dels ved at tjekke de links, der går ud fra et website, og den tjekker desuden, om der er gensidig linkning mellem sites. Jo større popularitet, desto større chance for at ende højt oppe i søgeresultatet.

Andre algoritmer anvendes til at vurdere kvaliteten af websites med, og om de fortjener en plads højt oppe på resultatlisten eller langt nede i bunden. Kvalitet baserer sig blandt andet på overholdelse af Googles regler og principper for søgemaskineoptimering. (Se afsnittet om SEO).

Udover at forsøge at vurdere kvalitet og fjerne misinformation fra indholdssider, som vi har set eksempler på i videoen, anvendes Googles algoritmer også til at overvåge brugerdata og til at agerere i forskellige situationer, f.eks. ved at spore brugeres lokation. Et eksempel på det er at beskytte kvinder, der opholder sig på abortklinikker i USA, ved at fjerne deres geolokationsoplysninger, søgehistorik m.m. Dette tiltag skyldes den stramme lovgivning om abort og dermed frygten for myndigheders indgriben i kvindernes data (Ritzau, 2022).

Googlesøgninger og resultater er altså baseret på automatiserede beslutningsprocesser. I realiteten ved vi ikke meget om, hvordan algoritmerne fungerer, dels fordi de ændres flere gange dagligt, og dels fordi algoritmerne er velbevarede forretningshemmeligheder. Vi ved således heller ikke, hvordan algoritmerne beregner, hvad der er information eller misinformation, kvalitetsindhold eller skadeligt indhold, eller hvor tit de tager fejl.

 

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Søgemaskineoptimering (SEO)

SEO (Search Engine Optimization) handler om at ”please” algoritmerne til en god placering på resultatlisten for at få kunder/brugere ind på ens eget website uden at skulle betale dyre annoncekroner. Inden for SEO findes der både helte og skurke - også kaldet White hat SEO og Black hat SEO, som du kan se af nedenstående oversigt over forskellene:

SEO.png

 

  Læs mere om SEO

'White hat SEO' betyder, at man opfører sig ordentligt og følger de regler og principper Links to an external site., som Google har vedtaget for god søgemaskineoptimering. Det kan tage tid, før websitet bliver synligt, men til gengæld løber man ikke risikoen for at blive straffet med at blive fjernet fra Googles søgeresultater.

'Black hat SEO' er ikke interesseret i langtidsholdbare websites, men udelukkende i at komme højt op i søgeresultatet, så nogen forhåbentligt klikker ind på websitet.

Det kan der være flere grunde til. Her er et par eksempler fra det virkelige liv:

En kendt erhvervsmand har fået kritik og negativ omtale i nyhedsmedierne på grund af penge i skattely. Denne negative omtale havner højt oppe i Googles søgeresultat. Derfor hyrer han et marketingsfirma med speciale i SEO til at få kritikken gjort så usynlig som muligt og få websites med rosende omtale af ham højt op i resultatet (Jakob Albrecht, 2021 Links to an external site.).

Et andet eksempel er domænet IT-borger.dk, der oprindeligt tilhørte den tidligere IT- og Telestyrelse, og som informerede om it-sikkerhed. Et marketingsfirma købte domænet og under dække af stadigvæk at informere om it-sikkerhed var formålet i virkeligheden at hjælpe marketingsfirmaets kunder med at sælge it-udstyr (Frederik Kulager, 2019 Links to an external site.). 
 
Hvis Google opdager manipulation, falske sites og black hat SEO, straffes websitet ved at blive fjernet fra søgefladen og fra indeks, men det kan være uhyre svært at opdage selv for algoritmer. Og hvis det bliver opdaget, laver disse black hats blot nogle nye websites med nye domæner, der i en overgang igen vil bringe dem højt op på resultatlisten. 

 

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  Google Scholar

Google viser sjældent resultater fra videnskabelige kilder, men med Google Scholar Links to an external site. søger du efter akademiske publikationer, herunder peer-reviewed videnskabelige artikler, og den er derfor mere oplagt at bruge til videnskabelig informationssøgning til din opgave end Google, men ganske som med Google er der ting, du skal være opmærksom på, som du kan se af nedenstående oversigt:

Scholar.png

  Læs mere om Google Scholar

Ligesom Google er det en webcrawler, der indsamler og indekserer publikationer fra websites med akademisk og videnskabeligt indhold. På samme måde som med Google er der tale om en automatiseret proces, hvor algoritmer styrer, hvad der indekseres, præsenteres, og hvordan resultater rangordnes.  

Google Scholar har den fordel, at den ligesom Google vil forsøge at forstå, hvad du vil med en enkel søgning, og at den næsten altid vil finde noget, der virker relevant blandt de første søgeresultater. Google Scholar finder desuden ofte akademiske publikationer inden for nye emneområder, som endnu ikke er blevet optaget i fagdatabaserne, samt rapporter fra myndigheder og andre autoritative kilder, som du ikke finder i en almindelig søgning i Google.

Et opmærksomhedspunkt er, at der generelt er uklarhed om, hvilke kilder og publikationstyper Google Scholar medtager eller ikke medtager, men tilsyneladende har algoritmerne svært ved at skelne fup-publikationer fra ægte videnskabelige publikationer. F.eks. er artikler fra diverse fuptidsskrifter søgbare (se lektionen Fusk eller forskning - pas på predatory journals!).

Hvor hyppigt Google Scholar opdaterer sit indeks, er ligeledes en gåde. Ved en søgning på forskellige titler hos f.eks. arXiv Links to an external site. er de nyeste artikler for indeværende måned ikke søgbare endnu. 

Også relevansrankering er uklart, men baseres bl.a. på antal citationer, en publikation har opnået. Dem kan man desværre ikke regne med, idet det lader til, at Google Scholar inkluderer dubletter og websites med falske artikler og citationer. 

Herudover er der mangel på avancerede søgemuligheder, f.eks. med boolske operatorer og ordentlige filtreringsmuligheder, og en egentlig systematisk søgning er derfor ikke mulig.

Generelt er der nogle iboende udfordringer med at bruge Google Scholar som eneste litteraturkilde på grund af manglende kvalitetskontrol i dækning og generel uklarhed i forhold til, hvilke kilder der bliver indekseret.

__________________________________________________________

 

COBL_litterature_40x40px_2017_18-1.png  ChatGPT og andre chatbots – informationer uden kildeangivelse og opdigtede artikler

Chatbots vinder kraftigt frem og bliver i stigende grad brugt som alternativ til de mere traditionelle søgemaskiner. Da ChatGPT som den første avancerede chatbot blev åbnet for offentligheden i november 2022, fik vi adgang til en robot, der forstår og skriver et menneskeligt sprog, og som kan svare på spørgsmål og skrive tekster inden for alle tænkelige emner.

Dermed kan man lynhurtigt få kortfattede og velformulerede svar på input som f.eks.:
Klik på hvert input for at se hvad ChatGPT svarede (ChatGPT Mar 14 Version, 2023): 

  ChatGPT - KU question-1.pngWhat are the biggest climate challenges?

ChatGPT - answer icon-1.pngChatGPT replied:

There are several major climate challenges facing the world today. Here are some of the biggest ones:

  1. Global temperature rise: One of the biggest climate challenges is the overall increase in global temperatures, which is causing changes in weather patterns, melting glaciers and sea ice, rising sea levels, and more frequent and severe natural disasters.

  2. Greenhouse gas emissions: Another major challenge is the continued release of greenhouse gases (primarily carbon dioxide) into the atmosphere from human activities such as burning fossil fuels and deforestation. These emissions are causing the Earth’s atmosphere to trap more heat, leading to global warming and other climate impacts.

  3. Loss of biodiversity: Climate change is also having a significant impact on global biodiversity, with many species facing extinction due to changes in temperature, precipitation, and other environmental factors.

  4. Water scarcity: As temperatures rise and precipitation patterns change, water scarcity is becoming an increasingly pressing issue in many regions around the world. This is affecting both human populations and ecosystems, and exacerbating existing water-related challenges such as water pollution and over-extraction.

  5. Food security: Climate change is also impacting food production and distribution, leading to decreased yields and increased food insecurity in many areas. This is particularly challenging for vulnerable populations who rely on agriculture for their livelihoods.

Overall, these climate challenges are interconnected and require urgent and coordinated action to mitigate their impacts and build resilience in the face of continued change.

  ChatGPT - KU question-1.pngPlease give me 3 scientific articles about water scarcity

ChatGPT - answer icon-1.pngChatGPT replied:

Here are three scientific articles about water scarcity:

  1. “Water scarcity and the impact of improved irrigation management: A comparative analysis across several Mediterranean river basins” by Marta Moneo, et al. This article, published in Agricultural Water Management in 2018, explores the impacts of water scarcity on agriculture in several Mediterranean river basins. The authors use a comparative analysis to examine the effectiveness of different irrigation management strategies in mitigating the impacts of water scarcity on crop yields.

  2. “Assessing global water scarcity and the impact of water conservation measures using a modified water footprint methodology” by Mesfin M. Mekonnen and Arjen Y. Hoekstra. This article, published in Hydrology and Earth System Sciences in 2016, presents a comprehensive assessment of global water scarcity using a modified water footprint methodology. The authors examine the impact of water conservation measures such as reducing food waste and improving irrigation efficiency on water scarcity.

  3. “Water scarcity, food security, and inequality: A longitudinal analysis of global crop production, trade, and consumption” by Kyle Frankel Davis, et al. This article, published in Environmental Research Letters in 2017, analyzes the relationship between water scarcity, food security, and inequality at a global scale. The authors use a longitudinal analysis of crop production, trade, and consumption to identify regions that are particularly vulnerable to water scarcity and food insecurity, and propose policy solutions to address these issues.

Selvom svarene fra ChatGPT virker overbevisende og kan være en genvej til at få overblik over et emne, skal du være meget opmærksom på, at du ikke kan vide, hvor chatbotten har sin viden fra. Der er ingen kilder. 

Men du skal være endnu mere på vagt, når du beder om referencer. Således er de tre referencer i ovenstående eksempel opdigtede. Artiklerne findes ikke! ChatGPT digter endda videre som en vaskeægte lystløgner, når man spørger ind til en af artiklerne:

 

   ChatGPT question long

ChatGPT - answer icon-1.pngChatGPT replied:
The article “Water scarcity and the impact of improved irrigation management: A comparative analysis across several Mediterranean river basins” was published in the journal Agricultural Water Management, Volume 97, Issue 4, Pages 503-512, in March 2010. The authors of the article are Andreas Th. Bruggeman, Raffaele Cortignani, Gianluca Dono, Andrea Daccache, and Ariel Dinar.

Here is the precise citation for the article:

Bruggeman, A. T., Cortignani, R., Dono, G., Daccache, A., & Dinar, A. (2010). Water scarcity and the impact of improved irrigation management: A comparative analysis across several Mediterranean river basins. Agricultural Water Management, 97(4), 503-512. https://doi.org/10.1016/j.agwat.2009.10.017 Links to an external site. 

  ChatGPT - KU question-1.pngI can’t find this article. Are you sure it is real?

ChatGPT - answer icon-1.pngChatGPT replied:

I apologize for any confusion I may have caused. After double-checking, I found that there was an error in my previous response. I apologize for this mistake.

The article “Water scarcity and the impact of improved irrigation management: A comparative analysis across several Mediterranean river basins” was published in the journal Agricultural Water Management, Volume 97, Issue 4, Pages 503-512, in March 2010. The authors of the article are Andreas Th. Bruggeman, Raffaele Cortignani, Gianluca Dono, Andrea Daccache, and Ariel Dinar.

I apologize for the inconvenience and confusion caused by my previous response.

 

 Hvordan fungerer ChatGPT?

ChatGPT er en såkaldt Large Language Model – en generativ AI-sprogmodel, som er udviklet og trænet til at generere tekstsvar, der efterligner menneskelige chatsamtaler. Modellen er trænet med meget store mængder af tekst fra alle hjørner af internettet, f.eks. chatsamtaler, digitaliserede bøger, forskningsartikler, nyhedsartikler og indhold på sociale medier. Når først udviklerne bag en AI-sprogmodel er tilfredse med modellens evne til at generere gode menneskelignende svar, har den ikke længere adgang til internettets tekster, og den søger således ikke sine svar på samme måde som traditionelle søgemaskiner.

I stedet bruger modellen et meget stort system af algoritmer til at sammensætte ord og sætninger til meningsfulde svar baseret på al den tekst, den har tygget sig igennem tidligere. Netop derfor digter ChatGPT de videnskabelige artikler som vist ovenfor. Den sammensætter ord til noget, der ligner rigtige titler, forfattere, tidsskrifter, årstal og DOI-links – men i de fleste tilfælde rammer den altså skævt, i hvert fald indtil videre.

Læs mere om, hvordan generative AI-sprogmodeller er udviklet i lektionen ' Teknologien bag ChatGPT og store sprogmodeller'.

Teknologien og anvendelsen af AI-sprogmodeller, som f.eks. bruges i 'ChatGPT', Microsofts 'Copilot' og Googles 'Bard', udvikler sig hurtigt. Sprogmodellerne bliver efterhånden integreret i andre løsninger, således at søgemaskiner som f.eks. Google selv formulerer svar fremfor kun at præsentere links til relevante kilder. Det kan du se et eksempel på i videoen 'Hvad sker der når du søger på Google?' ovenfor.

Vær derfor opmærksom på, at de søgeresultater og svar, du får fra både søgemaskiner og chatbots, er styret af algoritmer, der har andre formål end transparent, videnskabelig informationssøgning.

__________________________________________________________

 

COBL_tasks_40x40px_2017_10.png  Tjek altid kilderne – eller brug anerkendte fagdatabaser

Hverken chatbots, Google, Google Scholar eller andre søgemaskiner, der søger bredt på internettet, er pålidelige værktøjer til akademisk informationssøgning. Derfor er det vigtigt, at du altid tjekker de oplysninger og artikler, du finder via chatbots og søgemaskiner. Det kan du lære mere om i lektionerne Grundlæggende kildekritik og Nye metoder til digital kildekritik.

Alternativt kan du bruge anerkendte fagdatabaser, hvor der er menneskelig kontrol med indekseringen af tidsskrifter, og hvor du kan foretage en systematisk søgning, som er fri for algoritmer, der styrer efter kommercielle formål.

Som universitetsstuderende i Danmark har du gratis adgang til at søge i fagdatabaser via Det Kongelige Biblioteks database soeg.kb.dk Links to an external site.. Desuden kan dine undervisere hjælpe dig med at finde gode fagdatabaser inden for dit fag.

__________________________________________________________

 

COBL_onlinediscussion_40x40px_2017_6-1.png  Refleksionsøvelse

Foretag en søgning på eksempelvis ”climate solutions” på Google, og reflekter over følgende spørgsmål:

  • Er det de bedste kilder, der viser sig øverst i Googles resultatliste og hvis ikke, hvad er det så for resultater, der viser sig?
  • Hvad er Googles ranking af resultater udtryk for (kvalitet, troværdighed, vigtighed for dig, popularitet)?
  • Hvilke fordele/ulemper er der ved automatiserede søgeresultater?

Foretag samme søgning på Google Scholar, og reflekter over følgende spørgsmål:

  • Hvilke forskelle og ligheder er der mellem Googles og Google Scholars søgeresultater?
  • I hvilke sammenhænge er Google Scholar egnet til akademisk litteratursøgning?

Spørg evt. også en chatbot, som f.eks. Copilot eller ChatGPT: "What are the best climate solutions?" Reflekter over følgende spørgsmål:

NB! Som KU-studerende har du gratis adgang til Microsoft Copilot Links to an external site.. Husk at du skal være logget ind hos Microsoft med dit KU-brugernavn for at få adgang til den nyeste udgave af Copilot og for at dine data er beskyttet af KU's databehandleraftale med Microsoft.

  • Hvad kan du bruge chatbottens svar til i forhold til videnskabelig informationssøgning?
  • Kunne du finde på at bruge tekst fra en chatbot i en akademisk opgave? Hvordan/hvorfor/hvorfor ikke?

____________________________________________________________

 

COBL_fieldtrip_40x40px_2017_8.png  Hvis du vil vide mere

 

__________________________________________________________