Skip to main content
Tilbage

Nyt datasæt til evaluering af sprogmodellers evne til at forstå danske talemåder og faste udtryk

20. november 2024

Dekorativt indhold


Hvad forstår sprogmodeller sig på agurkesalat? Tror de, der er mere mellem himmel og jord? Ved de hvad vej, vinden blæser? Og har de ondt af det, de ikke ved?
 

Som led i udviklingen af dansk sprogteknologi er der kommet et stort fokus på evaluering af både danske og internationale sprogmodeller. Altså at undersøge sprogmodellers vidensgrundlag og kulturforståelse i et dansk perspektiv samt deres evne til at løse specifikke opgaver.

Med støtte fra sprogteknologi.dk hos Digitaliseringsstyrelsen har Det Danske Sprog- og Litteraturselskab (DSL) udviklet et datasæt, som kan bruges til at evaluere sprogmodellers evne til at forstå danske talemåder og faste udtryk.
 

Sprogmodellers forståelse af kulturelt forankret sprog

En af de mest fremtrædende udfordringer med sprogmodeller er deres evne til at forstå og håndtere kulturelt forankret sprog. Udtryk som det grå guld, fiske i rørte vande og koste en bondegård eksisterer udelukkende i en dansk kontekst, hvorfor de kan volde problemer for sprogmodeller, der er trænet på især engelsksproget materiale. Derfor er det nødvendigt at udvikle danske datasæt og evalueringsopgaver, der tester modellernes forståelse af netop talemåder og faste udtryk, hvis vi ønsker at bruge sprogmodeller optimalt på dansk.
 

1000 talemåder og faste udtryk

Datasættet er udarbejdet af DSL og består af en liste over 1000 danske talemåder og faste udtryk samt den betydningsbeskrivelse, der optræder med i Den Danske Ordbog. De er udvalgt, fordi de er frekvente i dansk, og i de fleste tilfælde findes der ikke et tilsvarende udtryk på engelsk. Ud over de korrekte betydningsbeskrivelser er hver talemåde eller fast udtryk også suppleret med falske betydningsbeskrivelser, i alt tre til hver. Én af disse er en korrekt betydningsbeskrivelse af et andet udtryk i datasættet, og de to andre er henholdsvis en falsk konkret og en falsk abstrakt betydningsbeskrivelse konstrueret af redaktører på DSL.

Med én korrekt og tre forskelligartede falske betydningsbeskrivelser til hvert udtryk kan datasættet bruges til at teste, om sprogmodellerne er i stand til at identificere den rigtige betydning blandt fire mulige. Og skulle modellen vælge en af de falske betydningsbeskrivelser, vil valget afsløre noget om, hvori fejlfortolkningen ligger. Opfatter sprogmodellen eksempelvis betydningen af en talemåde som den konkrete betydning af de enkelte ord? Eller gætter den tilfældigt?
 

Hvorfor 1000?

At der er udvalgt netop 1000 talemåder og faste udtryk skyldes, at tidligere erfaringer med evaluering af sprogmodeller peger på, at 1000 eksempler er et tilstrækkeligt antal til at teste sprogmodellers præstation i en given opgave.

Datasættet er designet med henblik på at afdække huller i sprogmodellers forståelse af kultur- og sprogspecifikke nuancer i dansk, og det kan indgå som delkomponent i både eksisterende og fremtidige evalueringsværktøjer. Derudover sikrer datasæt som dette, at der er en standardiseret og pålidelig måde at evaluere sprogmodeller på i en dansk kontekst.

Datasættet er udgivet under CC-BY-licens og kan findes her.

Projektet er finansieret af midler fra det fællesoffentlige samarbejde om dansk sprogteknologi.