Tilbage

Udarbejdelsen af et centralt ordregister skydes i gang

14. marts 2021

Vi kan nu glædeligt meddele, at udviklingen af et Central Ordregister for dansk (COR) sættes i gang. COR kan bidrage til at gøre løsninger, som involverer kunstig intelligens mere relevante ved at skabe bedre forudsætninger for, at computere kan lære at forstå den betydning mennesker tilskriver ord.

COR er en investering i fremtidens danske AI-udvikling, da den strukturerede betydningsinformation, tegner til at blive et af morgendagens mest afgørende aktiver inden for maskinlæring til AI-formål. Selvom at statistisk baserede neurale modeller spiller en alt mere dominerende rolle i den sprogteknologiske udvikling, så er det stadigvæk vigtigt for anvendelsesmulighederne af kunstig intelligens, at de leksikalske ressourcer udvikles og udvides. Leksikalske ressourcer er nemlig en vigtig komponent for, at maskiner kan lære at forstå den betydning, som vi mennesker tilknytter de ord vi bruger.

Derudover får danske virksomheder, via COR, en åben, koordineret og standardiseret ordressource for dansk almensprog, som alle andre sprogressourcer kan referere entydigt til, og hvor basisoplysninger om danske ord er beskrevet på en standardiseret og internationalt kompatibel måde. Danske virksomheder vil hermed lettere kunne sammenkoble og dermed genbruge deres egne eller andres mere specialiserede sprogressourcer (både eksisterende og fremtidige) på tværs af systemer og sprog. Således kan COR formindske nogle af de ressourcemæssige omkostninger, som der er forbundet med udviklingen af relevante løsninger med kunstig intelligens, der forstår dansk.

Projektet udarbejdes i et samarbejde mellem Dansk Sprognævn, Det Danske Sprog- og Litteraturselskab, Center for Sprogteknologi på Københavns Universitet og Digitaliseringsstyrelsen og vil forløbe fra marts 2021 til december 2023. I projektets første del vil COR-K (kernen) blive udarbejdet. Hermed vil den centrale del af det danske ordforråd samt bøjningsformer tildeles entydige indekser og morfologiske oplysninger, og der vil blive udarbejdet en passende datamodel. Det centrale her er indekseringen af ordene, som netop vil gøre det væsentligt lettere at koble forskellige typer af leksikalske ressourcer til en given betydning. I samme fase vil komponenten COR-F blive tilføjet, som indeholder de typiske fejlstavninger af ordene. I de senere dele vil der blive koblet en semantisk og en udvidet semantisk komponent (COR-S og COR-SX), og det er hensigten, at der løbende kan kobles nye komponenter på.

Hvis du gerne vil holde dig opdateret i takt med, at projektet løber af stablen, så gå ind på Center for Sprogteknologi ved Københavns Universitets projektside for COR. Eller hold øje med Det Danske Sprog- og Litteraturselskabs projektoversigt, hvor der ligeledes vil blive oprettet en projektside, hvorfra i løbende kan få informationer om projektet. Derudover, har Dansk Sprognævn lavet en interaktiv demonstration af COR og vil løbende komme med informationer på deres hjemmeside, som du finder her: Dansk Sprognævn. Her på portalen vil vi også løbende udgive nyheder i takt med, at COR-projektet skrider frem.

Hvis du har yderligere spørgsmål angående COR-projektet så tag kontakt til os på info@sprogteknologi.dk eller kontakt de relvante kontaktpersoner på projektet.

Professor Bolette Sandford Pedersen, Center for Sprogteknologi, Københavns Universitet, bspedersen@hum.ku.dk

Seniorredaktør Sanni Nimb, Det Danske Sprog- og Litteraturselskab, sn@dsl.dk

Seniorforsker Peter Juel Henrichsen, Dansk Sprognævn, pjh@dsn.dk

Flere nyheder

Det gik du glip af til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. november 2024

Evaluering og benchmarking af sprogmodeller er en forudsætning for dels at finde de bedst egnede løsninger til en given opgave, og dels for at målrette det videre...
More

Tilmeldingen til Sprogteknologisk Konference 2024 er åben!
17. september 2024

Kom og vær med, når Sprogteknologisk Konference bliver en afholdt d. 28. november på Københavns Universitet Amager (KUA). Det er i år fjerde gang i...
More

Bredt samarbejde skal hjælpe danske virksomheder og forskere med fri adgang til nogle af verdens største computere
12. september 2024

Digitaliseringsstyrelsen, Uddannelses- og Forskningsstyrelsen og universitetssamarbejdet DeiC opfordrer danske virksomheder, forskere og myndigheder til at bruge den massive compu-...
More

Mød sprogteknologi.dk på festivallen Vilde Teknologier
14. august 2024

Den 30. og 31. august 2024 kan du møde sprogteknologi.dk til festivallen Vilde Teknologier på Dokk1 i Aarhus! Sammen med Alexandra Instituttet parkerer vi et mobilt...
More

Invitation til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. juni 2024

Digitaliseringsstyrelsen inviterer til workshop om evaluering og benchmarking af sprogmodeller på dansk fredag d. 20. september 2024 fra 10:00-15:00, med mulighed for networking...
More