Algoritmerne styrer dit søgeresultat
Tid
Lektionen tager ca. 30 min. at gennemgå. Dertil kommer refleksionsøvelsen, som du meget gerne må lave i dialog med dine medstuderende.
Om lektionen 'Algoritmerne styrer dit søgeresultat'
I dagens digitale tidsalder er vi afhængige af at søge efter information online via søgemaskiner som Google, eller vi kan interagere med chatbots som ChatGPT og Copilot for at få svar på vores spørgsmål. Men hvad mange ikke er klar over, er, at de søgeresultater, vi får præsenteret, ikke bare er tilfældige. De er nøje udvalgt og arrangeret af komplekse algoritmer, der er designet til at sortere og rangere resultaterne efter relevans. Det er derfor vigtigt, at du som universitetsstuderende har en indsigt i, hvordan disse algoritmer fungerer, så du kan forholde dig kritisk til de søgeresultater, du får præsenteret. I denne lektion vil vi udforske, hvordan algoritmerne styrer dit søgeresultat, og hvordan det kan påvirke den information, du får adgang til online. Lad os sammen dykke ned i denne vigtige tematik og blive mere bevidste om, hvordan vi kan navigere i søgeresultaterne med en kritisk tilgang for at opnå mere pålidelige og nøjagtige resultater.
Læringsmål
Når du har gennemført lektionen, forventer vi, at du:
- kan give en basal forklaring på, hvad en algoritme er.
- kan beskrive, hvorfor en algoritme kan være 'biased' eller 'overfitted'.
- kan give eksempler på faktorer, der påvirker søgeresultater i Google.
- kan forklare, hvorfor det er vigtigt, at du forholder dig kritisk til oplysninger fra både søgemaskiner (f.eks. Google) og chatbots (f.eks. ChatGPT og Copilot).
Kilde
Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2023.
Fagansvarlige:
- Birgitte Munk, specialkonsulent, Universitetsbibliotek (KUB)
- Erik Engelbrekt Schwägermann, informationsspecialist, Universitetsbibliotek (KUB)
- Anne Bagger, informationsspecialist, Universitetsbibliotek (KUB)
- Muhamed Fajkovic, specialkonsulent, Universitetsbibliotek (KUB)
__________________________________________________________
Hvad er en algoritme, og hvordan opstår bias?
Denne video giver indblik i :
- hvordan algoritmer via automatiseret beslutningstagning og fortolkning af enorme datamængder kan påvirke menneskers adfærd.
- hvorfor koncepterne algoritmisk 'bias' og 'overfitting' er vigtige.
- hvordan algoritmer kan påvirke samfundet.
Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.
__________________________________________________________
Hvad sker der, når du søger på Google?
Denne video giver indblik i:
- den betydning, algoritmer har i forhold til den information, du finder, når du søger online.
- hvordan algoritmer kan påvirke den information, du få stillet til rådighed, når du søger efter information til din opgave.
Hvis du oplever Access Denied, genindlæs da siden. Alternativt skift browser.
__________________________________________________________
Googles algoritmer og deres funktioner
Googles algoritmer udfylder mange forskellige funktioner, som du kan se af den kronologiske oversigt her:
Læs mere om algoritmer
Den ældste algoritme er linkanalyse-algoritmen Pagerank og desuden den eneste transparente, idet den i sin tid blev patenteret. Pagerank vurderer populariteten af websites dels ved at tjekke antal links ind til et website, dels ved at tjekke de links, der går ud fra et website, og den tjekker desuden, om der er gensidig linkning mellem sites. Jo større popularitet, desto større chance for at ende højt oppe i søgeresultatet.
Andre algoritmer anvendes til at vurdere kvaliteten af websites med, og om de fortjener en plads højt oppe på resultatlisten eller langt nede i bunden. Kvalitet baserer sig blandt andet på overholdelse af Googles regler og principper for søgemaskineoptimering. (Se afsnittet om SEO).
Udover at forsøge at vurdere kvalitet og fjerne misinformation fra indholdssider, som vi har set eksempler på i videoen, anvendes Googles algoritmer også til at overvåge brugerdata og til at agerere i forskellige situationer, f.eks. ved at spore brugeres lokation. Et eksempel på det er at beskytte kvinder, der opholder sig på abortklinikker i USA, ved at fjerne deres geolokationsoplysninger, søgehistorik m.m. Dette tiltag skyldes den stramme lovgivning om abort og dermed frygten for myndigheders indgriben i kvindernes data (Ritzau, 2022).
Googlesøgninger og resultater er altså baseret på automatiserede beslutningsprocesser. I realiteten ved vi ikke meget om, hvordan algoritmerne fungerer, dels fordi de ændres flere gange dagligt, og dels fordi algoritmerne er velbevarede forretningshemmeligheder. Vi ved således heller ikke, hvordan algoritmerne beregner, hvad der er information eller misinformation, kvalitetsindhold eller skadeligt indhold, eller hvor tit de tager fejl.
__________________________________________________________
Søgemaskineoptimering (SEO)
SEO (Search Engine Optimization) handler om at ”please” algoritmerne til en god placering på resultatlisten for at få kunder/brugere ind på ens eget website uden at skulle betale dyre annoncekroner. Inden for SEO findes der både helte og skurke - også kaldet White hat SEO og Black hat SEO, som du kan se af nedenstående oversigt over forskellene:
Læs mere om SEO
'White hat SEO' betyder, at man opfører sig ordentligt og følger de regler og principper Links to an external site., som Google har vedtaget for god søgemaskineoptimering. Det kan tage tid, før websitet bliver synligt, men til gengæld løber man ikke risikoen for at blive straffet med at blive fjernet fra Googles søgeresultater.
'Black hat SEO' er ikke interesseret i langtidsholdbare websites, men udelukkende i at komme højt op i søgeresultatet, så nogen forhåbentligt klikker ind på websitet.
Det kan der være flere grunde til. Her er et par eksempler fra det virkelige liv:
En kendt erhvervsmand har fået kritik og negativ omtale i nyhedsmedierne på grund af penge i skattely. Denne negative omtale havner højt oppe i Googles søgeresultat. Derfor hyrer han et marketingsfirma med speciale i SEO til at få kritikken gjort så usynlig som muligt og få websites med rosende omtale af ham højt op i resultatet (Jakob Albrecht, 2021 Links to an external site.).
Et andet eksempel er domænet IT-borger.dk, der oprindeligt tilhørte den tidligere IT- og Telestyrelse, og som informerede om it-sikkerhed. Et marketingsfirma købte domænet og under dække af stadigvæk at informere om it-sikkerhed var formålet i virkeligheden at hjælpe marketingsfirmaets kunder med at sælge it-udstyr (Frederik Kulager, 2019
Links to an external site.).
Hvis Google opdager manipulation, falske sites og black hat SEO, straffes websitet ved at blive fjernet fra søgefladen og fra indeks, men det kan være uhyre svært at opdage selv for algoritmer. Og hvis det bliver opdaget, laver disse black hats blot nogle nye websites med nye domæner, der i en overgang igen vil bringe dem højt op på resultatlisten.
__________________________________________________________
Google Scholar
Google viser sjældent resultater fra videnskabelige kilder, men med Google Scholar Links to an external site. søger du efter akademiske publikationer, herunder peer-reviewed videnskabelige artikler, og den er derfor mere oplagt at bruge til videnskabelig informationssøgning til din opgave end Google, men ganske som med Google er der ting, du skal være opmærksom på, som du kan se af nedenstående oversigt:
Læs mere om Google Scholar
Ligesom Google er det en webcrawler, der indsamler og indekserer publikationer fra websites med akademisk og videnskabeligt indhold. På samme måde som med Google er der tale om en automatiseret proces, hvor algoritmer styrer, hvad der indekseres, præsenteres, og hvordan resultater rangordnes.
Google Scholar har den fordel, at den ligesom Google vil forsøge at forstå, hvad du vil med en enkel søgning, og at den næsten altid vil finde noget, der virker relevant blandt de første søgeresultater. Google Scholar finder desuden ofte akademiske publikationer inden for nye emneområder, som endnu ikke er blevet optaget i fagdatabaserne, samt rapporter fra myndigheder og andre autoritative kilder, som du ikke finder i en almindelig søgning i Google.
Et opmærksomhedspunkt er, at der generelt er uklarhed om, hvilke kilder og publikationstyper Google Scholar medtager eller ikke medtager, men tilsyneladende har algoritmerne svært ved at skelne fup-publikationer fra ægte videnskabelige publikationer. F.eks. er artikler fra diverse fuptidsskrifter søgbare (se lektionen Fusk eller forskning - pas på predatory journals!).
Hvor hyppigt Google Scholar opdaterer sit indeks, er ligeledes en gåde. Ved en søgning på forskellige titler hos f.eks. arXiv Links to an external site. er de nyeste artikler for indeværende måned ikke søgbare endnu.
Også relevansrankering er uklart, men baseres bl.a. på antal citationer, en publikation har opnået. Dem kan man desværre ikke regne med, idet det lader til, at Google Scholar inkluderer dubletter og websites med falske artikler og citationer.
Herudover er der mangel på avancerede søgemuligheder, f.eks. med boolske operatorer og ordentlige filtreringsmuligheder, og en egentlig systematisk søgning er derfor ikke mulig.
Generelt er der nogle iboende udfordringer med at bruge Google Scholar som eneste litteraturkilde på grund af manglende kvalitetskontrol i dækning og generel uklarhed i forhold til, hvilke kilder der bliver indekseret.
__________________________________________________________
ChatGPT og andre chatbots – informationer uden kildeangivelse og opdigtede artikler
Chatbots vinder kraftigt frem og bliver i stigende grad brugt som alternativ til de mere traditionelle søgemaskiner. Da ChatGPT som den første avancerede chatbot blev åbnet for offentligheden i november 2022, fik vi adgang til en robot, der forstår og skriver et menneskeligt sprog, og som kan svare på spørgsmål og skrive tekster inden for alle tænkelige emner.
Dermed kan man lynhurtigt få kortfattede og velformulerede svar på input som f.eks.:
Klik på hvert input for at se hvad ChatGPT svarede (ChatGPT Mar 14 Version, 2023):
|
Selvom svarene fra ChatGPT virker overbevisende og kan være en genvej til at få overblik over et emne, skal du være meget opmærksom på, at du ikke kan vide, hvor chatbotten har sin viden fra. Der er ingen kilder.
Men du skal være endnu mere på vagt, når du beder om referencer. Således er de tre referencer i ovenstående eksempel opdigtede. Artiklerne findes ikke! ChatGPT digter endda videre som en vaskeægte lystløgner, når man spørger ind til en af artiklerne:
Here is the precise citation for the article: Bruggeman, A. T., Cortignani, R., Dono, G., Daccache, A., & Dinar, A. (2010). Water scarcity and the impact of improved irrigation management: A comparative analysis across several Mediterranean river basins. Agricultural Water Management, 97(4), 503-512. https://doi.org/10.1016/j.agwat.2009.10.017 Links to an external site.
|
Hvordan fungerer ChatGPT?
ChatGPT er en såkaldt Large Language Model – en generativ AI-sprogmodel, som er udviklet og trænet til at generere tekstsvar, der efterligner menneskelige chatsamtaler. Modellen er trænet med meget store mængder af tekst fra alle hjørner af internettet, f.eks. chatsamtaler, digitaliserede bøger, forskningsartikler, nyhedsartikler og indhold på sociale medier. Når først udviklerne bag en AI-sprogmodel er tilfredse med modellens evne til at generere gode menneskelignende svar, har den ikke længere adgang til internettets tekster, og den søger således ikke sine svar på samme måde som traditionelle søgemaskiner.
I stedet bruger modellen et meget stort system af algoritmer til at sammensætte ord og sætninger til meningsfulde svar baseret på al den tekst, den har tygget sig igennem tidligere. Netop derfor digter ChatGPT de videnskabelige artikler som vist ovenfor. Den sammensætter ord til noget, der ligner rigtige titler, forfattere, tidsskrifter, årstal og DOI-links – men i de fleste tilfælde rammer den altså skævt, i hvert fald indtil videre.
Læs mere om, hvordan generative AI-sprogmodeller er udviklet i lektionen ' Teknologien bag ChatGPT og store sprogmodeller'.
Teknologien og anvendelsen af AI-sprogmodeller, som f.eks. bruges i 'ChatGPT', Microsofts 'Copilot' og Googles 'Bard', udvikler sig hurtigt. Sprogmodellerne bliver efterhånden integreret i andre løsninger, således at søgemaskiner som f.eks. Google selv formulerer svar fremfor kun at præsentere links til relevante kilder. Det kan du se et eksempel på i videoen 'Hvad sker der når du søger på Google?' ovenfor.
Vær derfor opmærksom på, at de søgeresultater og svar, du får fra både søgemaskiner og chatbots, er styret af algoritmer, der har andre formål end transparent, videnskabelig informationssøgning.
__________________________________________________________
Tjek altid kilderne – eller brug anerkendte fagdatabaser
Hverken chatbots, Google, Google Scholar eller andre søgemaskiner, der søger bredt på internettet, er pålidelige værktøjer til akademisk informationssøgning. Derfor er det vigtigt, at du altid tjekker de oplysninger og artikler, du finder via chatbots og søgemaskiner. Det kan du lære mere om i lektionerne Grundlæggende kildekritik og Nye metoder til digital kildekritik.
Alternativt kan du bruge anerkendte fagdatabaser, hvor der er menneskelig kontrol med indekseringen af tidsskrifter, og hvor du kan foretage en systematisk søgning, som er fri for algoritmer, der styrer efter kommercielle formål.
Som universitetsstuderende i Danmark har du gratis adgang til at søge i fagdatabaser via Det Kongelige Biblioteks database soeg.kb.dk Links to an external site.. Desuden kan dine undervisere hjælpe dig med at finde gode fagdatabaser inden for dit fag.
__________________________________________________________
Refleksionsøvelse
Foretag en søgning på eksempelvis ”climate solutions” på Google, og reflekter over følgende spørgsmål:
- Er det de bedste kilder, der viser sig øverst i Googles resultatliste og hvis ikke, hvad er det så for resultater, der viser sig?
- Hvad er Googles ranking af resultater udtryk for (kvalitet, troværdighed, vigtighed for dig, popularitet)?
- Hvilke fordele/ulemper er der ved automatiserede søgeresultater?
Foretag samme søgning på Google Scholar, og reflekter over følgende spørgsmål:
- Hvilke forskelle og ligheder er der mellem Googles og Google Scholars søgeresultater?
- I hvilke sammenhænge er Google Scholar egnet til akademisk litteratursøgning?
Spørg evt. også en chatbot, som f.eks. Copilot eller ChatGPT: "What are the best climate solutions?" Reflekter over følgende spørgsmål:
NB! Som KU-studerende har du gratis adgang til Microsoft Copilot Links to an external site.. Husk at du skal være logget ind hos Microsoft med dit KU-brugernavn for at få adgang til den nyeste udgave af Copilot og for at dine data er beskyttet af KU's databehandleraftale med Microsoft.
- Hvad kan du bruge chatbottens svar til i forhold til videnskabelig informationssøgning?
- Kunne du finde på at bruge tekst fra en chatbot i en akademisk opgave? Hvordan/hvorfor/hvorfor ikke?
____________________________________________________________
Hvis du vil vide mere
- Haider, J. og O. Sundin. 2019. Invisible Search and Online Search Engines. Routledge. https://doi.org/10.4324/9780429448546 Links to an external site..
- Halevi, G., Henk M. og J. Bar-Ilan. 2017. “Suitability of Google Scholar as a source of scientific information and as a source of data for scientific evaluation—Review of the Literature”. Journal of Informetrics 11 (3): 823–34. https://doi.org/10.1016/j.joi.2017.06.005 Links to an external site..
- Morris, W. 2022. “A Primer on SEO Techniques: The Good, The Bad, and The Ugly”. Elegant Themes Blog https://www.elegantthemes.com/blog/wordpress/seo-techniques Links to an external site..
__________________________________________________________