Udarbejdelsen af et centralt ordregister skydes i gang
14. marts 2021
Vi kan nu glædeligt meddele, at udviklingen af et Central Ordregister for dansk (COR) sættes i gang. COR kan bidrage til at gøre løsninger, som involverer kunstig intelligens mere relevante ved at skabe bedre forudsætninger for, at computere kan lære at forstå den betydning mennesker tilskriver ord.
COR er en investering i fremtidens danske AI-udvikling, da den strukturerede betydningsinformation, tegner til at blive et af morgendagens mest afgørende aktiver inden for maskinlæring til AI-formål. Selvom at statistisk baserede neurale modeller spiller en alt mere dominerende rolle i den sprogteknologiske udvikling, så er det stadigvæk vigtigt for anvendelsesmulighederne af kunstig intelligens, at de leksikalske ressourcer udvikles og udvides. Leksikalske ressourcer er nemlig en vigtig komponent for, at maskiner kan lære at forstå den betydning, som vi mennesker tilknytter de ord vi bruger.
Derudover får danske virksomheder, via COR, en åben, koordineret og standardiseret ordressource for dansk almensprog, som alle andre sprogressourcer kan referere entydigt til, og hvor basisoplysninger om danske ord er beskrevet på en standardiseret og internationalt kompatibel måde. Danske virksomheder vil hermed lettere kunne sammenkoble og dermed genbruge deres egne eller andres mere specialiserede sprogressourcer (både eksisterende og fremtidige) på tværs af systemer og sprog. Således kan COR formindske nogle af de ressourcemæssige omkostninger, som der er forbundet med udviklingen af relevante løsninger med kunstig intelligens, der forstår dansk.
Projektet udarbejdes i et samarbejde mellem Dansk Sprognævn, Det Danske Sprog- og Litteraturselskab, Center for Sprogteknologi på Københavns Universitet og Digitaliseringsstyrelsen og vil forløbe fra marts 2021 til december 2023. I projektets første del vil COR-K (kernen) blive udarbejdet. Hermed vil den centrale del af det danske ordforråd samt bøjningsformer tildeles entydige indekser og morfologiske oplysninger, og der vil blive udarbejdet en passende datamodel. Det centrale her er indekseringen af ordene, som netop vil gøre det væsentligt lettere at koble forskellige typer af leksikalske ressourcer til en given betydning. I samme fase vil komponenten COR-F blive tilføjet, som indeholder de typiske fejlstavninger af ordene. I de senere dele vil der blive koblet en semantisk og en udvidet semantisk komponent (COR-S og COR-SX), og det er hensigten, at der løbende kan kobles nye komponenter på.
Hvis du gerne vil holde dig opdateret i takt med, at projektet løber af stablen, så gå ind på Center for Sprogteknologi ved Københavns Universitets projektside for COR. Eller hold øje med Det Danske Sprog- og Litteraturselskabs projektoversigt, hvor der ligeledes vil blive oprettet en projektside, hvorfra i løbende kan få informationer om projektet. Derudover, har Dansk Sprognævn lavet en interaktiv demonstration af COR og vil løbende komme med informationer på deres hjemmeside, som du finder her: Dansk Sprognævn. Her på portalen vil vi også løbende udgive nyheder i takt med, at COR-projektet skrider frem.
Hvis du har yderligere spørgsmål angående COR-projektet så tag kontakt til os på info@sprogteknologi.dk eller kontakt de relvante kontaktpersoner på projektet.
Professor Bolette Sandford Pedersen, Center for Sprogteknologi, Københavns Universitet, bspedersen@hum.ku.dk
Seniorredaktør Sanni Nimb, Det Danske Sprog- og Litteraturselskab, sn@dsl.dk
Seniorforsker Peter Juel Henrichsen, Dansk Sprognævn, pjh@dsn.dk