Om os
Sprogteknologi.dk
Sprogteknologi.dk samler og udstiller metadata om relevante danske sprogressourcer, som led i den fællesoffentlige indsats for dansk sprogteknologi. Det politiske afsæt for sprogteknologi.dk findes i den tidligere Nationale strategi for kunstig intelligens fra 2019, Digitaliseringspagten og Økonomiaftalerne for 2020 mellem Regeringen, KL og Danske Regioner, hvori etableringen af en fællesdansk sprogressource blev vedtaget. Sidenhen har indsatsen for styrket dansk sprogteknologi også været indskrevet i nyere politiske aftaler.
Den politiske forankring af sprogteknologi.dk er i ’Styregruppen for digital innovation og grøn omstilling’, der består af en række statslige myndigheder, KL og Danske Regioner. Digitaliseringsstyrelsen er sekretariat for sprogteknologi.dk.
Kontakt os gerne ved at skrive til info@sprogteknologi.dk.
Vision og målsætning
Sprogteknologi.dk's ambition er, at løsninger som involverer kunstig intelligens skal fungere ligeså godt i en dansk kontekst, som i konteksten af de større sprog. Sprogteknologi.dk anser i den forbindelse danske sprogdata som en strategisk ressource, som er nødvendige for at sikre, at kunstig intelligens kan anvendes i Danmark lige nu og i fremtiden. Derfor fokuserer sprogteknologi.dk på arbejdet med sprogressourcer og ikke med den egentlige udvikling af nye sprogteknologiske løsninger eller sprogmodeller.
Størstedelen af den sprogteknologi der udvikles i dag, udvikles med udgangspunkt i de større sprog, som fx engelsk, kinesisk, spansk, tysk og fransk, hvorfor sprogteknologi oftest mangler forståelse og kendskab til det danske sprog og dansk kultur. Sprogteknologi bygger på data, som repræsenterer sproglige karakteristika, kulturelle normer og værdier og har derfor betydning for, hvordan teknologien tolker input og hvordan den svarer. Manglende tilgængelige danske sprogressourcer gør det vanskeligt eller ineffektiv, at bruge ny teknologi i en dansk kontekst.
Arbejdsområder
Arbejdet for sprogteknologi.dk tager bl.a. udgangspunkt i nogle af de anbefalinger, som Sprogteknologiudvalget, nedsat af Kulturministeriet, kom med i rapporten "Dansk sprogteknologi i verdensklasse" i april 2019. I 2023 arrangerede sekretariatet for sprogteknologi.dk to workshops, hvor indsatsens fokusområder og målsætning blev diskuteret med interessentlandskabet for dansk sprogteknologi. Sprogteknologi.dk's arbejde kan opdeles i tre områder:
1) Videndeling om og udstilling af eksisterende sprogressourcer
Sitet Sprogteknologi.dk samler og udstiller metadata om en lang række danske sprogressourcer på ét sted. Formålet hermed er, at gøre det lettere for udgivere af sprogressourcer at dele og lettere for udviklere af dansk sprogteknologi at finde danske sprogressourcer.
I forlængelse af den digitale platform arbejdes der på at etablere en løbende videndeling blandt aktører i det danske sprogteknologiske landskab. Videndelingen består blandt andet i at gøre opmærksomme på nytilkommende sprogressourcer eller igangværende projekter, som involverer dansk sprogteknologi via sitet og LinkedIn. Hertil arrangerer sekretariatet for sprogteknologi.dk i samarbejde med andre aktører den årlige sprogteknologiske konference, workshops, gå-hjem-møder og hackathons.
2) Koordination omkring og udvikling af nye højkvalitets sprogressourcer
Sprogteknologi.dk arbejder også med udvikling af nye højkvalitetssprogressoucer og forsøger herved at imødekomme efterspørgslen på efterspurgte sprogressourcer. Sprogteknologi.dk er bl.a. involveret i CoRal projektet og projekt vedr. Det centrale ordregister og har stået for udgivelsen af Nota lyd- og tekstdata samt et scrape af Region Hovedstadens dokumentportal.
3) Internationalt samarbejde
Digitaliseringsstyrelsen deltager som repræsentant for Danmark i det fælleseuropæiske Language Data Space og i den Europæiske Alliance for sprogteknologi (ALT-EDIC).
Hvad er sprogressourcer?
En sprogressource er en komponent, som kan anvendes til at løse en sprogrelateret opgave maskinielt.
Overordnet kan sprogressourcer beskrives ift. et udviklingsworkflow. I det følgende udviklingsflow er eksempler på sprogressourcer markeret med fed: Sprogdata og sprogteknologiske supportværktøjer, som danner træningsfundamentet for udviklingen af nye sprogteknologiske infrastrukturkomponenter. Disse tre elementer indgår på sprogteknologi.dk, mens egentlige sprogteknologiske softwareløsninger, som er slutprodukter til brugerne, ikke indgår.
Sprogdata udgør den centrale ressource for udvikling af sprogteknologi og består af forskellige former for elektronisk lagrede tekst- eller talesamlinger eller leksikalske sprogressourcer såsom ordbøger og termbaser. Sprogdataressourcerne omtales ofte som tekstkorpora, talekorpora eller leksikalske ressourcer.
Sprogteknologisk supportværktøj er også sprogressourcer, da det er værktøj, der understøtter indsamling og forarbejdning af sprogdata ved anonymisering eller opmærkning. Begrebet dækker ligeledes over værktøjer og toolkits til træning af fx sprogmodeller og akustiske modeller.
Sprogteknologiske infrastrukturkomponenter kan forstås som genbrugelige, modulære komponenter med et bestemt anvendelsesformål såsom talegenkendelse, talesyntese, sprogforståelse eller maskinoversættelse, og som kan integreres i flere forskellige softwareløsninger.
Uden for sprogteknologi.dk falder softwareløsninger, som er sprogressourcer i form af de endelige sprogløsninger, der er målrettet slutbrugeren.
Udstilling af sprogressourcer
Ønsker du at udstille dine sprogressourcer eller at gøre os opmærksomme på tilgængelige sprogressourcer, så er du meget velkommen til at skrive til os på vores mail info@sprogteknologi.dk. Vi ser gerne henvendelser fra private og offentlige organisationer, forskere og privatpersoner.
Vi opfordrer alle udgivere til at:
- bekræfte de metadata som sprogteknologi.dk har om dine sprogressourcer
- bekræfte eller informere sekretariatet, såfremt der sker ændringer i metadata om de sprogressourcer, som du udgiver
- bekræfte, at der kun udstilles metadata om de af dine sprogressourcer, der ikke er betalingspålagte
- bekræfte eller angive under hvilken licens, dine sprogressourcer må benyttes
Ved at udstille sprogressourcer på sprogteknologi.dk, accepterer man også at metadata og udstilling af ressourcen høstes til udstilling på Datavejviser og Den Europæiske Dataportal.
Anvendelsesvilkår for ressourcer og metadata
Hovedsageligt er sprogressourcer, udstillet på sprogteknologi.dk, åbne og tilgængelige. Det er dataudgivers eget ansvar at definere under hvilke betingelser, data må anvendes. Udgiver bør derfor angive, hvilken licens sprogressourcen udstilles med ved reference til et licensdokument.
Det anbefales, at licensvilkårene for sprogressourcer beskrives ved brug af standardlicenser (se fx Creative Commons. Nogle ressourcer kan dog have mere restriktive licenser, hvorfor man bør undersøge sprogressourcernes licensvilkår forud for anvendelsen af dem. Hvis der er tvivl om licensvilkår for sprogressourcerne, så ret henvendelse til kontaktpunktet, som er tilknyttet ressourcen.
De beskrivelser af sprogressourcer (dvs. metadata) som Sprogteknologi.dk udstiller stilles frit til rådighed for alle anvendere og kan genbruges og videredistribueres under Creative Commons Public Domain licens (CC0: https://creativecommons.org/publicdomain/zero/1.0/.
Ejerskabet til og ansvaret for datasæt eller øvrige sprogressourcer forbliver hos den enkelte organisation eller person, der har udgivet pågældende sprogressourcer. Udgiver af sprogressourcen har fortsat ansvaret for validiteten og kvaliteten af den enkelte sprogressource og det fulde juridiske ansvar for de sprogressourcer, som de udgiver.
Etisk anvendelse af sprogressourcer
Udviklingen af sprogteknologiske løsninger rummer store muligheder for innovation. Men, som ved al brug af data, følger også en række etiske overvejelser omkring eksempelvis bias i data og muligheder for misbrug af data.
Både dataudstillere og dataanvendere opfordres til aktivt at forsøge at undgå bias ved at sikre, at alle køn, aldersgrupper, befolkningsgrupper med videre er repræsenteret, og ved tydeligt at notere det, hvor bias ikke kan undgås.
Brugere af sprogteknologi.dk forventes til en hver tid at anvende data på en etisk forsvarlig måde, som på ingen måde kan formodes at vildlede eller volde skade. Desuden skal det altid være tydeligt, når brugere interagerer med en maskine og ikke et levende menneske.
Find mere information om principper og dataetiske værktøjer hos Dataetisk Råd.
Datamodel og tekniske snitflader
Med sprogteknologi.dk adresseres behovet for et offentligt tilgængeligt katalog over danske sprogressourcer. Portalen understøtter samtidig 'direktivet om åbne data og den offentlige sektors informationer' (PSI-direktivet) gennem en datakatalogapplikation.
Sprogressourcer udstilles i den fællesoffentlige standard for beskrivelse af datasæt (DCAT-AP-DK). Læs mere om DCAT-AP-DK standarden. Denne standard er europæisk interoperabel.
Det bagvedliggende it-system er en tilpasning af open source systemet CKAN, der driftes på Statens IT’s platform GovCloud.
En samling af datasætbeskrivelserne i kataloget kan også hentes i formaterne RDF, XML, TTL og JSONLD ved at trykke på knappen "Hent katalog" nederst på siden.