Tilbage

ÆLÆCTRA og NERDA – To nye sprogteknologiske værktøjer, der forstår dansk

19. maj 2021

Dekorativt indhold.

Det er ikke nogen hemmelighed, at udviklingen af sprogteknologi på dansk ikke er lige så nem som på de store sprog, fx engelsk eller kinesisk, hvor mængden af let tilgængelige sprogressourcer muliggør udvikling med speederen i bund. Manglende dansk sprogteknologi er desværre en unødig barriere for et digitalt Danmark af høj kvalitet og for udnyttelsen af det massive potentiale i nye teknologier.

Inden for de seneste par måneder er der dog blevet udviklet hele to nye og super interessante sprogteknologiske værktøjer på dansk, hvilket kan siges at være et lille tryk på gaspedalen.

Vi er utrolig glade for at kunne tilføje begge til samlingen af danske sprogressourcer på sprogteknologi.dk.

Malte Højmark-Bertelsen har udviklet Ælæctra, som er en transformer-baseret NLP model. Han har anvendt træningsmetoden Electra-small på The Danish Gigaword Corpus (www.gigaword.dk) og hans værktøj er allerede taget i brug af KMD i deres løsning ”Sager som min” til Nævnenes Hus. Fordelen ved Ælæctra er, at den kræver færre ressourcer til træning og processering, hvilket stiller færre krav til hardware og energiforbrug.

Det andet stykke sprogteknologiske værktøj er døbt NERDA og er udviklet af Lars Kjeldgaard og erhvervs- ph.d. Lukas Christian Nielsen, som er ansat hos Ekstra Bladet. NERDA er udgivet som en Python-pakke, som gør det let at opbygge og træne NER-modeller på flere forskellige sprog, herunder særligt dansk. NER (Named entity recognition) bruges allerede i mange sammenhænge til fx at identificere personer, steder, organisationer m.m. i store mængder tekstdata. NERDA har den fordel, at den er så enkel at anvende, at personer uden den helt store kodeerfaring kan træne deres egne NER modeller. Det kan her tilføjes, at NERDA’s egen NER-model fik tilfredsstillende resultater efter at være trænet på et datasæt med blot 5500 sætninger.

Ælæctra og NERDA fortæller en vigtig historie om, at det ikke kræver en kæmpemæssig techafdeling for at udvikle sprogteknologiske værktøjer på dansk. Det er glædeligt når efterspørgslen på dansk sprogteknologi er stigende. Ælæctra blev udviklet som et led i Malte Højmark-Bertelsens bachelorprojekt på Cognitive Science ved Aarhus Universitet, og NERDA er udviklet på et par måneder, hvor Lars Kjeldgaard gik på et indføringskursus i NLP.

Tilgå NERDA Tilgå Ælæctra

På sprogteknologi.dk arbejder vi for at gøre danske sprogressourcer lettere tilgængelige og skabe opmærksomhed omkring de ressourcer, der bliver udviklet. Af samme grund vil vi opfordre udviklere, dataindehavere og eksperter til at tage kontakt til os, hvis I har danske sprogressourcer som I gerne vil dele. Vi vil også gerne høre om use cases hvor danske sprogressourcer indgår i jeres organisationer, eller om løsninger, som kan inspirere andre til at anvende dansk sprogteknologi.

Flere nyheder

Det gik du glip af til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. november 2024

Evaluering og benchmarking af sprogmodeller er en forudsætning for dels at finde de bedst egnede løsninger til en given opgave, og dels for at målrette det videre...
More

Tilmeldingen til Sprogteknologisk Konference 2024 er åben!
17. september 2024

Kom og vær med, når Sprogteknologisk Konference bliver en afholdt d. 28. november på Københavns Universitet Amager (KUA). Det er i år fjerde gang i...
More

Bredt samarbejde skal hjælpe danske virksomheder og forskere med fri adgang til nogle af verdens største computere
12. september 2024

Digitaliseringsstyrelsen, Uddannelses- og Forskningsstyrelsen og universitetssamarbejdet DeiC opfordrer danske virksomheder, forskere og myndigheder til at bruge den massive compu-...
More

Mød sprogteknologi.dk på festivallen Vilde Teknologier
14. august 2024

Den 30. og 31. august 2024 kan du møde sprogteknologi.dk til festivallen Vilde Teknologier på Dokk1 i Aarhus! Sammen med Alexandra Instituttet parkerer vi et mobilt...
More

Invitation til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. juni 2024

Digitaliseringsstyrelsen inviterer til workshop om evaluering og benchmarking af sprogmodeller på dansk fredag d. 20. september 2024 fra 10:00-15:00, med mulighed for networking...
More