Sprogteknologisk Konference 2024 er afholdt!
6. december 2024
Sprogteknologisk konference 2024 blev afholdt for fjerde år i træk. Igen i år var konferencen et samlingspunkt for aktører og personer med interesse for dansk sprogteknologi. Alt fra offentlige myndigheder, virksomheder, studerende og forskere, var samlet til et heldagsarrangement dedikeret til dansk sprogteknologi. Herunder får du et tilbageblik på dagen, og du kan finde slides og præsentationer fra dagen.
Lige omkring 300 sprogteknologi-interesserede personer var samlet til konferencen, som fandt sted i endnu større rammer end sidste år! Det foregik på Søndre Campus og blev afholdt af Digitaliseringsstyrelsen og Center for Sprogteknologi ved Københavns Universitet. Dagen bød på en række spændende emner inden for dansk kunstig intelligens og sprogteknologi fra forskere, virksomheder og offentlige myndigheder.
Dagen startede med en velkomst fra vicedirektør i Digitaliseringsstyrelsen, Lars Bønløkke Lê, som gav ordet videre til Digitaliseringsminister, Caroline Stage Olsen. Ministeren udtalte optimisme på vegne af den nyoprettede AI Taskforce, som skal styrke fundamentet for dansk sprogteknologi. Desuden understregede ministeren, at hun stadig er meget opmærksom på, hvordan det danske arbejde med sprogteknologi bedst understøttes. Dorthe Gert Simonsen, Prodekan for forskning og impact, KU, bød også velkommen og lagde stor vægt på vigtigheden af samarbejdet iblandt universiteterne, den offentlige sekter og private virksomheder, hvilket også blev gentaget af institutleder Bolette Sandford Pedersen, som også italesatte, hvor meget sprogteknologi-feltet i Danmark har rykket sig inden for de seneste år.
Konferencens første oplæg var fra Isabelle Augenstein, som præsenterede resultaterne fra sin forskningsgruppes undersøgelse af den viden, der eksisterer i store sprogmodeller. Sprogmodeller lagrer nemlig viden i deres parametre fra træningsprocessen, men deres voksende kompleksitet gør det udfordrende at forstå og opdatere denne viden uden at gentræne modellen. Hendes forskning præsenterer en ramme for at evaluere lagret viden og diagnosticere konflikter mellem modelens hukommelse og ny kontekst.
Evaluering var også temaet for dagens anden oplægsholder, Dan Saattrup Nielsen fra Alexandra Instituttet. Han gav en præsentation af forskellige evalueringsmetrikker og værktøjet ScandEval, som er et rammeværktøj til at evaluere og rangere sprogmodeller inden for den nordgermanske sprogstamme samt få andre ressourcesvage sprog.
Sundhed var temaet for sessionen efter første pause, hvor Pernille Just Vinholt, overlæge fra Odense Universitetshospital fortalte om Indsigt.ai, der kan fremhæve relevant information fra elektroniske patientjournaler og derved spare læger vigtig tid. Der blev kastet lidt lys over selve modellen, men der blev også introduceret specifikke use-cases og forklaret, hvordan man går fra implementering til klinisk drift. En af hovedpointerne var, at fokus også skal ligge på læring, evaluering og behovsafklaring, selvom sprogmodellen er i centrum.
Sidsel Boldsen fra Novo Nordisk fremlagde konkrete problemstillinger, som virksomheden står over for, når det kommer til udvikling af sprogteknologiske værktøjer. Hun kom også ind på, hvordan der blev udtrukket viden fra centrale samlinger af medicinske forskningspapirer og gav et indblik i deres arbejde GraphQL.
Mads Henrichsen fra syv.ai præsenterede sine to modeller DanskGPT og Hviske 2.0. De er begge danske modeller som er fine-tunede på større internationale modeller. Han havde desuden en overraskelse med til konferencen i form af en multimodal model, som kunne lave tekst til tale og fremlagde nogle af de problematikker der følger med denne form for model.
Anders Søgaard fulgte op med en snak på de højere klinger: Nemlig diskursen om sprogmodeller og deres vidensgrundlag, samt deres evner til at teoretisere om verden. Hans hovedspørgsmål var, om man overhovedet kan snakke om, at sprogmodeller har viden eller om det blot er statiske fremkomster af det mest sandsynlige svar.
Forskeren Francis Bond fra Palacký University Olomouc i Tjekkiet præsenterede hvordan metaforer og metonymier bliver forsøgt kortlagt i projektet ChainNet. Det er primært rettet mod engelsk tale, men der var et opråb om at få flere sprog med – dansk er repræsenteret ved hjælp af DanNet. Ved at inkorporere flere sprog fra Open Multilingual WordNet er det blevet tydeligere, at flere sprog i højere grad benytter de samme metonymiske udskiftninger frem for metaforiske.
Den sidste sektion bød på en paneldebat. Debatten blev modereret af Kasper Junge og Jonas Høgh Kyhse-Andersen, som står bag podcasten Verbos, og panelet bestod af kyndige deltagere. Thomas Kovsted, adm. Direktør i IBM Danmark repræsenterede Dansk Sprogmodel Konsortium, Isabelle Augenstein, bragte sine indsigter fra forskningen, Kasper Groes Ludvig Albin fra Rigspolititet gav et perspektiv om det klimamæssige aspekt og Erik David Johnson bidrog med sin ekspertise inden for sprogmodeller og filosofi. Der blev snakket om spørgsmål såsom om Danmark skal have en stor dansk sprogmodel, flere små modeller eller lægge sig slipstrømmen af store tech-virksomheders løsninger og fintune på dansk og ikke mindst, hvem der skal betale dette.
Ud over de mange spændende oplæg, var der i konferencens pauser indlagt postersessioner. Her blev der præsenteret igangværende sprogteknologiske projekter, hvor konferencens gæster kunne gå rundt og høre nærmere. Man kunne eksempelvis høre om ”1000 danske talemåder og faste udtryk”, ”Danoliterate”, ”TrustLLM” og meget, meget andet.
Hos sprogteknologi.dk er vi særligt positive over at se så mange fremmødte og mærke interessen for udviklingen af dansksproget sprogteknologi. Der skal lyde et stort tak fra Digitaliseringsstyrelsen og Center for Sprogteknologi ved Københavns Universitet til de mange deltagere til konferencen!
Her er de slides, der er blevet delt fra dagen
Detecting Factual Errors of Large Language Models
Evaluation of Language Models in the Generative Era
Hvorfra ved vi, hvad en sprogmodel ved?
Cross-lingual Modelling of Lexical Metaphor and Metonymy in WordNet using ChainNet
Se eller gense posterpitch præsentationer