Den nye ressource COR.SEM tilføjes til Det Centrale Ordregister
2. februar 2024
Udviklingen af Centralt Ordregister for dansk (COR) er et samarbejdsprojekt mellem Det Danske Sprog- og Litteraturselskab, Dansk Sprognævn, Center for Sprogteknologi på KU og Digitaliseringsstyrelsen om at udvikle en dansk sprogressource til sprogteknologiske formål.
Målsætningen med COR er at gøre alle basisoplysninger om danske ord tilgængelige på en standardiseret og international kompatibel måde og dermed sikre, at der kan skabes bedre og nemmere sammenhæng i de sprogteknologiske løsninger, der udvikles fremadrettet.
Det Centrale Ordregister understøtter dansk sprogteknologi ved at:
- støtte effektiv deling af danske sprogressourcer
- give åben adgang til betydningsinformationer om danske ord
- forøge sprogforståelsen i dansk sprogteknologi og dermed kvaliteten af dansksproget kunstig intelligens
Anvenderne af COR kan dermed lettere sammenkoble og genbruge deres egne eller andres mere specialiserede sprogressourcer (både eksisterende og fremtidige) på tværs af systemer og sprog.
Det Centrale Ordregister (COR) er blevet udvidet med en ny ressource, COR.SEM, som tilføjer semantisk information om en stor del af ordene i registeret og dermed skaber bedre muligheder for at opbygge sprogforståelse i teknologi.
En af målsætningerne ved COR er at sikre bedre muligheder for at opbygge struktureret maskinlæsbar betydningsinformation for almindelige danske ord på et andet plan end tidligere. Udvidelsen med COR.SEM er en realisering af dette, fordi man nu ved hjælp af ressourcen kan koble semantisk viden om ét ord op til dets COR.ID i indekset (COR 1.02).
I disse år er der en stigende efterspørgsel fra virksomheder på danske ordbogsdata, der dels indbefatter oplysninger om ordklasse, bøjning og udtale og dels oplysninger om ordenes betydning i standardiseret form. Fx om et givent ord i en tekst refererer til en person (som i politiker), en handling (som i vedtage), eller en positiv/negativ egenskab (som i lovende eller ulovlig).
Med komponenten COR.SEM er der på basis af ordforråd og oplysninger om ord i Den Danske Ordbog (ordnet.dk/DDO), det danske WordNet DanNet, Den Danske Begrebsordbog, Det Danske FrameNet-leksikon og Det Danske Sentiment-leksikon skabt en ny sprogteknologisk ordbog, hvor opslagsordets betydninger er omdrejningspunktet. COR.SEM er sammenkoblet med DanNet og dermed en netværksgraf, der viser hvordan mange af betydningerne relaterer til hinanden på tværs af ordforrådet gennem navngivne forbindelser, og hvordan de relaterer til det engelske WordNet.
COR.SEM kan indgå som selvstændig semantisk komponent i danske sprogteknologiapplikationer eller som træningsmateriale til danske sprogmodeller enten som en sprogressource eller via finetuning. Ressourcen kan også bruges som benchmark til at vurdere, hvor godt danske sprogmodeller håndterer forskellige aspekter af sprogforståelse.
COR.SEM indeholder 34.000 opslagsord med i alt 42.000 betydninger, herunder 10.500 opslagsord der er udpeget som centrale og væsentlige ord i dansk i DanNet og Den Danske Begrebsordbog.
COR.SEM kan sammen med det resterende register findes på ordregister.dk, hvor ressourcen kan downloades som en tsv-fil eller tilgås via et API-kald.