Skip to main content
Tilbage

Hvordan kan store generative sprogmodeller trænes så de forstår både det danske sprog, men også den danske kultur?

13. november 2024

Dekorativt indhold


Forskningsgruppen NLPnorth fra IT-Universitet i København er sammen med Aalborg Universitet ved Pioneer Centre for AI i gang med at sætte fokus på forskellige aspekter af sprogteknologiens aktuelle begrænsninger. Og lige nu er de i gang med projektet ’SnakModel’, som skal evaluere kulturforståelsen i træningen af store generative sprogmodeller.
 

De store sprogmodeller (LLM’er) gør et stigende indtog i civilsamfundet og kan nemt interagere med brugerne på dansk på trods af, at de primært er trænet på engelsk og baseret på engelske data. Dog er der for mange af LLM’ernes tilfælde en manglende viden om dansk kultur, og det kan betyde, at generativ kunstig intelligens responderer anglocentrisk eller modstridende til andre sprogsamfund (fx ved at foreslå en alkoholisk drik efter en islamisk bøn).

Forskerne bag projektet oplevede, at selvom dansk og engelsk tilhører den samme sprogfamilie og til dels deler nogle samfundsnormer og kulturelle værdier, så er eksisterende LLM’er ikke tilpasset dansk viden og kultur. Selv når sprogmodeller bliver adspurgt på dansk eller er finetunet til kun at give danske svar, så kan sprogmodellen have udfordringer med at give svar, der resonerer med dansk kultur. Fx kan en LLM finde på at svare Washington DC, hvis man spørger ”Hvad hedder hovedstaden?” og hvad vil den mon svare når man spørger ”Hvordan bliver man medlem af folketinget?" eller ”Må man dreje til venstre på en cykel i et lyskryds?” når man forventer et svar i dansk kontekst?
 

Kan vi få bedre dansk kulturforståelse ind i en LLM?

Stort set alle sprog, ud over engelsk, har for lidt data til at træne en LLM. Derfor er den mest normale strategi for lavressourcesprog, at ”tilpasse” en engelsksproget model. Fokus for projektet er derfor at undersøge, hvordan forskellige træningsmetoder påvirker modeltilpasningen til dansk kulturforståelse. 

For at sikre den bedste kvalitet i SnakModel har forskningsgruppen anvendt ScandEval benchmarket til automatisk evaluering. ScancEval er et benchmark værktøj, der kan anvendes til at sammenligne præ-trænede sporogmodeller på opgaver på dansk og andre skandinaviske sprog. Dertil har de, som den første af sin slags, udført en ”kulturevalueringsundersøgelse” hvor de med bidrag fra deltagere med dansk som modersmål, har foretaget en manuel undersøgelse til specifikt at evaluere modellens bevidsthed om dansk kultur. Her evaluerede de kulturel bevidsthed ved at foretage en online undersøgelse, hvor deltagerne skulle prompte tre LLM'ere, som var blevet trænet til dansk via tre forskellige strategier. Deltagerne skulle prompte med spørgsmål, som krævede forståelse af dansk kultur. Dette er for at evaluere både modellerne i projektet og de eksisterende automatiske evalueringsbenchmarks.

”Vores resultater viser, at selv når de engelskbaseret modeller er fintunet på oversatte danske data, så giver de kun et acceptabelt svar 20% af gangene, mens vores model trænet på naturlige danske data fordobler acceptgraden til 42%”, fortæller Postdoc Max Müller-Eberstein (ITU).

Den manuelle evalueringsundersøgelse har vist, at svar fra SnakModel accepteres dobbelt så ofte som svar fra andre modeller, som kun trænes på oversatte danske data – især på områder om livsstil, mad, normer og traditioner. Men ikke desto mindre var den samlede acceptrate kun på 42%, hvilket understreger, at det forsat er udfordrende at få den rette forståelse for dansk kultur i store generative sprogmodeller. 


Danmark er et fremragende miljø til at forske i sprogteknologi

”For at tilpasse LLM'er til nye sprog er det stadig en udfordring at forstå sammenhængen mellem teori, herunder hvilke data de er trænet på, hvordan de trænes og så videre, kontra anvendelse af LLM’er i praksis. LLM'er er også sværere at evaluere, fordi de er implementeret i meget forskellige scenarier og producerer naturlige tekstsvar, som er svært at evaluere automatisk”, fortæller Postdoc Max Müller-Eberstein (ITU) og tilføjer yderligere, at denne øvelse er endnu sværere for lavressource sprog, som fx dansk, da der er en begrænset datatilgængelighed.

At arbejde med store sprogmodeller er udfordrende, fordi de skubber grænserne for størrelse på både data og compute. Forskningsgruppen bag SnakModel er lykkedes med at indsamle 13,6 milliarder danske ord til træningen, dog er engelsktalende modeller trænet på datasæt med billionvis af ord og på tech-giganternes store servere. 

Afslutningsvist ser Postdoc Max Müller-Eberstein (ITU) fremad og fastslår: ”Danmark er et fremragende miljø til at forske i tilpasningen af nye sprogteknologier til nye sprog, fx LLM'er, da danske digitale ressourcer er meget velorganiserede. Den stigende mængde compute giver også mulighed for ikke blot at være forbrugere af disse teknologier, men aktivt at forme og undersøge, hvordan træning påvirker modellernes ydeevne”.

Forskningsgruppen arbejder forsat videre på udviklingen af SnakModel, og fælles er der stadig et stort arbejde der skal gøres, og LLM’er mangler forsat en masse viden om dansk kultur.

Læs mere og find ressourcer relateret til SnakModel på projektets GitHub repository: https://github.com/nlpnorth/snakmodel