Tilbage

CoRal kick-off: Nyt stort taledatasæt skal fremme dansk taleteknologi

17. april 2023

Dekorativt indhold.

Selvom Danmark er førende inden for offentlig digitalisering, så er der fortsat et behov for udvikling af dansk taleteknologi. Da Danmark er et lille sprogområde, risikerer vi at halte bagefter store sprog som engelsk grundet manglende data til at træne kunstig intelligens til at forstå dansk.

Med henblik på at styrke udviklingen inden for dansk taleteknologi, vil Alexandra Instituttet i samarbejde med Digitaliseringsstyrelsen, Københavns Universitet, Alvenir og Corti udvikle et såkaldt talekorpus kaldet Danish Conversational and Read-aloud Speech Dataset (CoRal). Projektet skal tilvejebringe et nyt stort dansk taledatasæt, som skal indeholde 1000-1500 timers annoteret samtale og oplæst tale, der har bred repræsentation af danske dialekter og talestile. Projektet skal derudover skabe nogle sprogmodeller, som fx tale-til-tekst og tekst-til-tale, der skal være med til at demonstrere mulighederne i at anvende taleteknologi. Data og modeller bliver offentligt tilgængelige som open source, så virksomheder og udviklere har mulighed for at bruge dem.

Projektet vil rekruttere 1500-2000 deltagere til at indtale højtoplæsning og samtale. Optagelserne finder sted i alle fem regioner i Danmark for at sikre data, der er repræsentativt for hele landet. Det er derfor vigtigt, at projektet får kontakt med deltagere med forskelligartede dialekter og på tværs af aldersgrupper og køn. Hvis du er interesseret i at have din stemme med i talekorpusset, kan du læse mere og tilmelde dig her.

Hvis du gerne vil vide mere om projektet, så afholder vi et kick-off møde d. 27. april 2023 kl. 15.00 på IT Universitetet i København, hvor projektets vision og processen for indsamling af taledata bliver præsenteret. Alle, der er interesserede i at høre mere om projektet og indsamlingen af data, er velkomne til at deltage i mødet. Her kan du også høre mere om, hvordan din stemme kan bidrage til projektet.

Du kan se programmet og tilmelde dig kick-off mødet her.

Flere nyheder

Danoliterate-projektet evaluerer sprogmodellernes præstationer på dansk!
1. juli 2024

Sprogmodeller udvikler sig med en voldsom hast, de er blevet bedre til at løse opgaver på dansk, og de får løbende nye funktionalitet er. Hertil kommer, at de...
More

Interview med Indsigt.ai - et arbejde med små, højt specialiserede modeller
13. juni 2024

Indsigt.ai er et projekt på Odense Universitetshospital Afdeling for Blodprøver og Biokemi, som arbejder med brugen af algoritmer til at understøtte sundhedsfaglige...
More

Korpus med offentlige tekster fra Region Hovedstadens dokumentsamling
3. april 2024

Nyt tekstdatasæt, som er velegnet til træning af sprogmodeller inden for det sundhedsfaglige domæne, er ude nu! Digitaliseringsstyrelsen har i samarbejde med...
More

Sprogteknologi hos sundhed.dk
21. august 2023

Sundhed.dk’s implementering af en chatbot er et eksempel på, hvordan sprogteknologi i den offentlige sektor støtter både borgere og medarbejdere. ...
More

Muni: Chatbot hjælper 37 kommuner med spørgsmål fra borgere
6. juni 2023

I 2020 blev chatbotten Muni implementeret til at kunne svare borgerne med 7.500 indbyggede svar i mere end 50 kategorier. Chatbotten hjælper kommunerne med at forstå, hvad...
More