Teknologien bag ChatGPT og store sprogmodeller
Tid
Lektionen forventes at tage ca. 30 min. at gennemføre, hvis du blot læser tekst og eksempler. Dertil kommer refleksionsøvelserne, som du med stor fordel kan lave sammen med dine medstuderende. Videoen fra Microsoft giver en dybere indsigt i visionerne for fremtidens brug af store sprogmodeller, men den er ikke nødvendig for den teknologiske forståelse.
Om lektionen 'Teknologien bag ChatGPT og store sprogmodeller'
En stor sprogmodel er en kunstig intelligens, der er optimeret til at forstå og formulere menneskeligt sprog. Vi kan derfor tale eller skrive til en stor sprogmodel i et naturligt sprog, og sprogmodellen kan svare os ved at skrive de tekster, vi beder den om, oversætte til andre sprog, svare på vores spørgsmål, opsummere information og meget mere. Men hvordan ser teknologien bag de store sprogmodeller ud? Det kan du lære om i denne lektion.
Læringsmål
Når du har gennemført lektionen, forventer vi, at du kan:
- give en basal forklaring på, hvad en stor sprogmodel er, og hvordan den fungerer.
- nævne eksempler på almindelige softwareprodukter og online services, som længe har brugt AI-sprogmodeller, og hvor vi kan forvente at støde på teknologien fremover.
- forklare forskellen på en AI-sprogmodel og en søgemaskine.
- reflektere over, hvordan AI-sprogmodeller kan bruges til at effektivisere processer inden for dit eget fagområde, og hvilke faldgruber der kan være ved at bruge teknologien.
Kilde
Lektionen er produceret af Københavns Universitet som en del af Københavns Universitets læringsressourcer til digital dannelse, 2024.
Fagansvarlige:
- Anne Kirkegaard, learning designer, Centre for Online and Blended Learning
- Martin Rykov Ibsen, learning designer, Centre for Online and Blended Learning
- Andreas Lindenskov Tamborg, tenure track adjunkt, Center for Digital Udannelse, Institut for Naturfagenes Didaktik
____________________________________________________________
Da ChatGPT kom bragende
Den 30. november 2022 lancerede den amerikanske virksomhed OpenAI en revolutionerende chatbot, kaldet ChatGPT Links to an external site.. Pludselig fik offentligheden adgang til at lege med en avanceret AI-sprogmodel – en maskine, der forstår almindeligt menneskeligt sprog og på få sekunder kan svare overbevisende tilbage med intelligente tekster. Mange aktører – både forskere, open source-miljøer og kommercielle virksomheder – har i årevis arbejdet intenst med udviklingen af AI-sprogmodeller, men OpenAI var den første virksomhed, der gav offentligheden adgang til at bruge deres sprogmodel gennem et simpelt brugerinterface på Internettet.
Universiteter og skolelærere verden over gik i panik, journalister så deres job forsvinde og programmører jublede over at kunne løse deres arbejdsopgaver på en brøkdel af den tid, de tidligere brugte. Efter et par måneder havde ChatGPT slået alle rekorder for det hurtigst voksende antal brugere på en online tjeneste nogensinde. Microsoft investerede massivt i OpenAI, og Google aktiverede deres kriseberedskab. Dermed blev der sat yderligere turbo på den rivende udvikling af AI-sprogmodeller, og teknologien bliver derfor i stigende grad integreret i mange af de computerprogrammer, apps og online tjenester, vi bruger til hverdag.
____________________________________________________________
AI-sprogmodeller før ChatGPT
Autokorrektur i Word, auto-complete i tekstbeskeder, Google Translate og samtaler med virtuelle assistenter som Apples Siri, Amazons Alexa og IKEAs navnløse chatbot – simple AI-sprogmodeller har været en del af vores liv længe inden ChatGPT blev lanceret, og mange af os har brugt sprogmodellerne uden at tænke nærmere over teknologien bag. Oplevelsen har dog ikke altid været særligt imponerende, fordi de bagvedliggende sprogmodeller var meget små – og dermed 'dumme' – i forhold til dem vi har adgang til i kølvandet på lanceringen af ChatGPT. En væsentlig forskel er, at de tidligere sprogmodeller kun kunne forholde sig til en enkelt sætning ad gangen og ikke trække på konteksten fra en længere samtale.
En simpel AI-sprogmodel kan drive fx auto-complete, Apple Messages, 2023
____________________________________________________________
En fremtidsvision: Microsoft – The Future of Work with AI
Den 16. marts 2023 leverede Microsoft en fascinerende og tankevækkende præsentation af Microsoft 365 Copilot, hvor de løfter sløret for, hvordan de arbejder med at integrere AI-sprogmodeller (også kaldet Large Language Models, LLMs) i alle deres programmer – og hvordan vi hver især kan bruge 'Copilot' som vores personlige assistent, når den kan trække på data i alle vores filer, både som privatpersoner og i studie- eller arbejdssammenhæng.
Illustration fra videoen 'The future of work with AI - Microsoft March 2023 Event', tidskode 06:15
Videoen varer 37 minutter og gennemgår mange eksempler på, hvordan vores liv bliver lettere, når vi med naturligt sprog kan bede Copilot om at gøre arbejdet for os: Skal du lave en PowerPoint-præsentation baseret på dit bachelorprojekt? Klik på Copilot-ikonet i PowerPoint, giv din instruks i helt almindeligt sprog, og få sekunder efter har du en flot præsentation, som bygger på filerne fra dit bachelorprojekt og slide-præsentationer, du har lavet tidligere. Den AI-genererede præsentation lever måske ikke helt op til alle dine ønsker og idéer, men du får serveret et udgangspunkt, som du kan arbejde videre med.
Meget tyder altså på, at AI-sprogmodeller i stadig stigende grad bliver integreret i programmer vi bruger til hverdag, og på den måde kan grænserne mellem menneskeligt og AI-genereret indhold måske blive sværere at opretholde. Udviklingen rejser alle mulige spørgsmål, som vi ikke kommer nærmere ind på i denne lektion, f.eks. om dataejerskab, ophavsret, plagiat, kildekritik samt værdien af menneskeskabt versus syntetisk indhold. Se lektionerne under Digital refleksion og Digital videnskabelig informationssøgning for refleksioner om konsekvenserne af, at AI-sprogmodeller bliver mere udbredte. I denne lektion er fokus på selve teknologien.
Hvis du er interesseret, kan du se hele præsentationen 'The future of work with AI' her:
____________________________________________________________
Teknologien bag ChatGPT og de øvrige store sprogmodeller
ChatGPT og de øvrige store sprogmodeller er resultatet af en udviklingsproces, hvor man bruger machine learning og dybe neurale netværk til at skabe en statistisk model, der kan forstå og generere naturligt sprog (Natural Language Processing). Der er tale om kompleks teknologi, som kombinerer mange metoder og tilmed er i rivende udvikling, så det følgende er en basal gennemgang.
GPT står for Generative Pre-trained Transformer: Generative: Modellen genererer nyt unikt indhold. Pre-trained: Modellen bliver først ’pre-trained’ på en stor mængde data – i dette tilfælde tekster fra Internettet, inkl. digitaliserede bøger, wikipedia, nyhedssites, chatfora og meget mere. Under pre-training afdækker modellen selv mønstre og relationer i data uden menneskelig supervision. Dernæst gennemgår modellen ’supervised fine-tuning’, hvor mennesker guider modellen til at give bedre svar og overholde etiske rammer. Transformer: Modellen er en deep learning-model af transformer-typen. En deep learning-model er et neuralt netværk, der kortlægger mønstre og relationer i store mængder data. Når man udvikler en sprogmodel, afdækker modellen de sproglige mønstre ved at bryde sproget ned i mindre elementer, også kaldet 'tokens' (dvs. ord, morfemer, tegn og mellemrum), og afdække de statistiske relationer mellem disse tokens. Derved kan modellen både forstå brugerens input og selv skabe tekst ved at forudsige det mest sandsynlige næste tegn eller ord i en sætning. Transformer-arkitekturen, som blev opfundet af ingeniører fra Google i 2017, gør det muligt at behandle data parallelt i stedet for sekventielt, hvilket gør processen langt hurtigere og mere effektiv. Samtidig gør transformer-arkitekturen det muligt for sprogmodellen at processere sprog på mange niveauer på en gang – både som tokens, ord, sætninger, afsnit og hele tekster. |
Sprogmodellen – et gigantisk spindelvæv af 'tokens' og 'parametre'
Udsnit af billede skabt af DALL·E, 27. november 2023. Tekstinput: 'a futuristic spiderweb that represents Large Language Models'.
Man kan forestille sig en sprogmodel som et kæmpestort og komplekst spindelvæv af sproglige elementer (altså ord, morfemer, tegn og mellemrum – også kaldet 'tokens') og forbindelserne imellem dem. Hvert token er som en knude ('node' eller kunstig neuron) i spindelvævet, og hvert ’parameter’ er som en tråd, der forbinder knuderne. Hvert parameter har en vægt, der angiver styrken af forbindelsen mellem to elementer.
Antallet af parametre er eksploderet
Den revolutionerende udvikling af AI-sprogmodeller er i høj grad sket ved at gøre modellerne større og større, bl.a. takket være transformer-arkitekturens effektive databehandling. Jo flere parametre en sprogmodel har, jo mere komplekst og detaljeret er dens spindelvæv – og jo bedre er den til at forstå og gengive nuancer i menneskeligt sprog.
Når sprogmodellerne får flere parametre, kræver det mere energi at træne og anvende dem.
Herunder kan du se udviklingen i antallet af parametre i OpenAI’s GPT-sprogmodeller fra 2018 til 2023.
GPT-1, 2018 | 120.000.000 |
GPT-2, 2019 | 1.500.000.000 |
GPT-3, 2020 | 175.000.000.000 |
GPT-4, 2023 | *) 1.700.000.000.000 |
*) Rygterne siger, at GPT-4 kan have helt op til 1,7 billioner parametre, men tallene er ikke offentligt tilgængelige. GPT-4 er en multimodal model, fordi den kan forstå og generere både tekst og billeder.
Store sprogmodeller kan indgå i multimodale, generative AI-systemer Generativ AI kan arbejde med forskellige modaliteter, dvs. forskellige typer af input og output:
De tidligste modeller kunne typisk kun tage en type input og genere en type output, f.eks. tekst-til-tekst (GPT-3) eller tekst-til-billede (Stable Diffussion, Dall-E, Midjourney). Nyere modeller, som f.eks. GPT-4 og Google Gemini, er multimodale, fordi de kan tage input i form af både tekst, lyd, billede og video og ligeledes genere output i disse formater. |
Kilder:
- What is GPT-4? Everything You Need to Know | TechTarget Links to an external site.
- The Ultimate Guide to GPT-4 Parameters: A Complete Overview (ambcrypto.com) Links to an external site.
Tokenization
Man kan omsætte sprog til tokens på mange forskellige måder, og den valgte metode er afgørende for modellens kvalitet. F.eks. kan man bryde sproget ned til enkeltbogstaver og tegn (det giver høj fleksibilitet, men kræver meget computerkraft), eller man kan arbejde med hele ord (det giver lav fleksibilitet, men kræver mindre computerkraft). De store sprogmodeller bruger 'subword tokenization', da denne type opløsning af sprogets elementer giver god fleksibilitet og samtidig sparer på computerkraften. Der er dog stor variation i, hvordan sprogmodellerne 'tokeniserer' sprog på subword-niveau. Nedenfor er en illustration af, hvordan en sprogmodel af typen "distilbert" omdanner en inputtekst til tokens og endelig til numeriske værdier som sprogmodellen kan arbejde med.
Illustration fra: Demystifying Tokenization: The Building Blocks of Language AI Links to an external site.
Hvordan skaber sprogmodellen sine svar?
Når du indtaster dit input i en sprogmodel, behandler modellen inputtet ved at bryde det op i tokens, men også ved at analysere ord, sætninger og tekst i større sammenhæng. Sprogmodellen bruger sin store statistiske model til at forudsige det næste token i sit svar. Det token, der har den højeste sandsynlighed, vælges som regel – men ikke altid – som det næste i svaret, og processen gentages, indtil sprogmodellen når frem til et stopkriterium, som er fastsat ved et maximalt antal tokens. Mens modellen genererer sit svar, trækker den både på inputteksten og det output, den selv har nået at producere. Denne proces, hvor modellen hele tiden kører iterationer over forudsigelsesprocessen, kaldes 'autoregression'.
Sprogmodeller er 'ikke-deterministiske' – det vil sige, at der er en variation i output, selvom du giver det samme input. Derfor kan du bede modellen om at generere et andet svar ud fra det samme input – og resultatet vil være et nyt, unikt svar. Det sker, fordi modellen ikke altid vælger det mest sandsynlige næste token i sit svar, men har indbygget et parameter, der afgør, hvor stort udfaldsrummet skal være. Dette parameter kaldes 'temperaturen'. Hvis temperaturen er sat til 0, vil modellen altid vælge det mest sandsynlige næste token, men hvis temperaturen er >0, vil modellen være mere 'kreativ' i sine svar, fordi den af og til vælger et andet token end det mest sandsynlige.
Illustration fra: Demystifying the Temperature Parameter: A Visual Guide to Understanding its Role in Large Language Models Links to an external site.
______________________________________________________
Søgemaskiner og AI-sprogmodeller – godt match eller farlig cocktail?
Sprogmodeller genererer nye, unikke tekster, der trækker på det meget store tekstmateriale, som modellen er trænet på – og OpenAIs GPT-modeller er optimeret til at være venlige og overbevisende samtalepartnere for sine brugere. En søgemaskine, derimod, søger i eksisterende indhold, som er tilgængeligt på Internettet. Søgemaskinen bruger teknikker som indeksering, crawling, ranking og matching til at finde og sortere de mest relevante resultater til brugerens forespørgsel.
Teknologierne bag søgemaskiner og store sprogmodeller kan kombineres, og nedenfor kan du se nogle eksempler på, hvordan de virker hver for sig og i samspil.
En sprogmodel har lært af internettets tekster – men kan fungere offline
Når man træner en stor sprogmodel, bruger man som udgangspunkt et datasæt, som man indsamler indtil et givet tidspunkt, hvorefter datasættet ikke ændres. Den version af ChatGPT, som er gratis tilgængelig i januar 2024, kører på OpenAI's sprogmodel, GPT-3.5. Modellen er primært trænet på tekstmateriale, der er udgivet frem til september 2021, og siden er den opdateret med 'viden' frem til januar 2022. Derfor kender ChatGPT ikke til begivenheder derefter.
Spørger man – i januar 2024 – f.eks om Ruslands invasion af Ukraine, får man følgende svar:
(klik på spørgsmålet for at læse ChatGPTs svar)
What happened when Russia invaded Ukraine?
ChatGPT svarede (2. januar 2024):
As of my last knowledge update in January 2022, I cannot provide real-time information on events that may have occurred after that date. Up until that point, Russia's invasion of Ukraine had not taken place. The situation in international affairs is dynamic, and events may have unfolded since then.
To get the most recent and accurate information about the situation, I recommend checking the latest news updates from reliable sources or official government statements. News agencies, government websites, and international organizations can provide up-to-date information on geopolitical events.
Selvom man tilgår ChatGPT via Internettet, så søger sprogmodellen (GPT-3.5) altså ikke på nettet, når den genererer sine svar – den trækker kun på viden fra det datasæt, den er trænet på.
Nyere sprogmodeller kan læse opdateret information på Internettet
Microsoft, som har indgået et partnerskab med OpenAI, integrerede i 2023 OpenAIs nyeste sprogmodel, GPT-4, i Copilot
Links to an external site. – en ny chat-funktion, som er tilgængelig sammen med Microsofts søgemaskine, Bing. GPT-4 er trænet på data, der er indsamlet indtil april 2023, og derfor kan den godt fortælle om den russiske invasion af Ukraine i 2022. Copilot kan desuden læse opdateret information på Internettet og levere kilder til de informationer, den giver.
(klik på spørgsmålet for at læse Copilots svar)
What happened when Russia invaded Ukraine?
Microsoft Copilot svarede (2. januar 2024):
The Russian invasion of Ukraine began in February 2014 with the covert invasion of the Ukrainian autonomous republic of Crimea by disguised Russian troops. The conflict expanded in April 2014 when Russians and local proxy forces seized territory in Ukraine’s Donbas region. Over the next seven years, more than 14,000 people would be killed in fighting in eastern Ukraine 1. On February 24, 2022, Russia launched a full-scale invasion of Ukraine. Although Russian forces made significant gains in the first days of combat, Ukrainian defenders rebuffed attempts to seize Kyiv and other major cities and were soon launching counterattacks at Russian positions 1. The war is still ongoing and has caused significant damage to both countries 1.
I hope this helps. Let me know if you have any other questions.
Source(s)
Hallucinationer – somme tider vrøvler sprogmodeller
Af og til opdigter sprogmodeller information, som ikke optræder i den data, som modellen er trænet på – det kaldes 'hallucination'. Udviklere arbejder naturligvis intensivt på at mindske problemet. Risikoen for hallucination er ekstra stor, hvis man spørger om emner, hvor datagrundlaget er begrænset – f.eks. hvis man spørger om helt aktuelle begivenheder.
I nytårstalen d. 31. december 2023 annoncerede Dronning Margrethe, at hun ville træde tilbage som dronning d. 14. januar 2024. Den 2. januar 2024 – altså to dage efter annonceringen, men 12 dage inden abdiceringen – svarede Copilot således:
(klik på spørgsmålet for at læse Copilot svar)
When will the Danish queen resign?
I dette tilfælde opstår fejlene måske, fordi sprogmodellen endnu ikke har 'læst' ret mange tekster, der beskriver begivenheden – og derfor er det statistiske materiale ikke tilstrækkeligt til at sikre et sammenhængende svar med den korrekte dato.
Bruger man i stedet Bings søgemaskine, får man centrale citater hentet direkte fra opdaterede kilder, som kan fortælle nyheden korrekt, og dertil får man links til kilderne:
(klik på spørgsmålet for at læse resultatet fra Bing Search, 2. januar 2024)
______________________________________________________
Refleksionsøvelse
Her er inspiration til at afprøve og vurdere, hvordan AI-sprogmodeller virker. Du kan bruge en eller flere sprogmodeller, som du kan få adgang til, f.eks. ChatGPT Links to an external site. (OpenAI), Microsoft Copilot Links to an external site. eller Gemini Links to an external site. (Google).
NB! Som KU-studerende har du gratis adgang til Microsoft Copilot Links to an external site.. Husk at du skal være logget ind hos Microsoft med dit KU-brugernavn for at få adgang til den nyeste udgave af Copilot og for at dine data er beskyttet af KU's databehandleraftale med Microsoft.
Prøv at skabe et originalt stykke indhold. Det kunne være en kort historie, en sangtekst eller et digt. Analysér derefter resultatet for at vurdere modellens evne til at efterligne en kreative proces. Prøv evt. flere sprogmodeller. Overvej spørgsmål som:
- På hvilke måder lykkedes det for modellen at være kreativ, og hvor fejler den?
- Hvilken indflydelse tror du AI kommer til at få på de kreative fag?
Design et eksperiment, hvor du tester en stor sprogmodels evne til at identificere sande vs. falske oplysninger. Bed sprogmodellen om at verificere en række påstande eller svare på faktuelle spørgsmål (hvor du selv kender svaret), og vurder dens svar. Diskutér derefter, hvordan modellen håndterer faktatjek, og hvilke begrænsninger den måtte have. Hvordan kan disse observationer påvirke tilliden til AI-genererede svar?
Hvordan kan AI-sprogmodeller forme vores arbejdsmarked, uddannelsessystem og dagligdag? Hvad tror du, AI-sprogmodeller kommer til at betyde for dit eget fag? Tænk på både positive og negative aspekter, såsom øget produktivitet og automatisering af arbejdsopgaver overfor risiko for fejl og jobs, der forsvinder.
Hvilke strategier kan vi anvende for at maksimere de positive effekter og minimere de negative?
____________________________________________________________
Hvis du vil vide mere
Her finder du en række ressourcer, hvor du på egen hånd kan lære mere om AI-sprogmodeller og generativ AI generelt:
Financial Times: Generative AI exists because of the transformer – This is how it works
Financial Times har lavet en grundig visuel forklaring af, hvordan de store sprogmodeller fungerer Links to an external site..
Intro to Large Language Models - YouTube
Andrej Karpathy forklarer den teknologiske baggrund for store sprogmodeller. Han er en slovakisk-canadisk datalog, der har arbejdet som direktør for kunstig intelligens hos Tesla og er nu ansat ved OpenAI, hvor han bl.a. specialiserer sig i dyb læring.
Prompt | DR LYD
Fremtiden er her, for kunstig intelligens kan alt fra at diagnosticere dig, komponere det perfekte popnummer – og måske endda føre en krig. Hver uge nærlæser tech-analytiker Marcel Mirzaei-Fard og hans nærmeste kollega Henrik Moltke, DR's teknologikorrespondent, de største historier om den teknologiske udvikling, der ændrer vores verden, politik og væren – og spørger, om AI er ven eller fjende.
The New York Times - Hard Fork
Hard Fork er en podcast fra The New York Times, der handler om fremtiden, som allerede er her. Hver uge udforsker journalisterne Kevin Roose og Casey Newton og giver mening til det seneste inden for den hurtigt skiftende verden af teknologi. Start f.eks med afsnittet 'Generative AI is here – Who should control it? Links to an external site.' fra 21. oktober 2022.
Dagbladet Information - Maskinstorm
Hvordan vil kunstig intelligens forandre vores verden? I podcasten ’Maskinstorm’ inviterer en række af Informations fagmedarbejdere eksperter i studiet for at forsøge at finde svar på netop det spørgsmål.
Øvrige kilder:
- The Ultimate Guide to Transformer Deep Learning (turing.com) Links to an external site.
- KUnet > Teknologien bag ChatGPT.
____________________________________________________________