Tilbage

Første tekst-til-tale datasæt fra CoRal-projektet ude nu!

18. april 2024

Dekorativt indhold

Så er der godt nyt for de danske tekst-til-tale modeller! Det første datasæt fra CoRal-projektet med 48 timers tale med transskription, er for ganske nyligt blevet offentliggjort!

Datasættet er lavet af to professionelle indlæsere, som hver har oplæst 24 timer af forskellige danske tekster. Primærteksterne kommer bl.a. fra sundhed.dk, borger.dk og lex.dk og dækker derfor en række forskellige domæner og områder. Desuden er alle busstoppesteder og stationer i Danmark, samt datoer og tider også blevet oplæst.

For at dække det mere naturlige sprog i datasættet, har man manuelt filtreret en række kommentarer fra Reddit, som også læses op. Der er derfor god mulighed for at eksperimentere med datasættet og undersøge forskellige former for brug i mange forskellige projekter.

CoRal (Danish Conversational and Read-aloud Speech Dataset) er et større samarbejdsprojekt mellem Alexandra Instituttet, Digitaliseringsstyrelsen, Datalogisk Institut, Københavns Universitet - DIKU, Alvenir og Corti. Målsætningen er at tilvejebringe 1000-1500 timers annoteret samtale og oplæst tale, der har bred repræsentation af danske dialekter og talestile og dækker forskellige domæner. Data vil løbende blive udgivet i takt med, at projektet skrider frem.

Du kan læse mere og finde datasættet hos Alexandra Instituttet her.

Eller tilgå datasættet via sprogteknologi.dk

Flere nyheder

Tilmeldingen til Sprogteknologisk Konference 2024 er åben!
17. september 2024

Kom og vær med, når Sprogteknologisk Konference bliver en afholdt d. 28. november på Københavns Universitet Amager (KUA). Det er i år fjerde gang i...
More

Bredt samarbejde skal hjælpe danske virksomheder og forskere med fri adgang til nogle af verdens største computere
12. september 2024

Digitaliseringsstyrelsen, Uddannelses- og Forskningsstyrelsen og universitetssamarbejdet DeiC opfordrer danske virksomheder, forskere og myndigheder til at bruge den massive compu-...
More

Mød sprogteknologi.dk på festivallen Vilde Teknologier
14. august 2024

Den 30. og 31. august 2024 kan du møde sprogteknologi.dk til festivallen Vilde Teknologier på Dokk1 i Aarhus! Sammen med Alexandra Instituttet parkerer vi et mobilt...
More

Invitation til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. juni 2024

Digitaliseringsstyrelsen inviterer til workshop om evaluering og benchmarking af sprogmodeller på dansk fredag d. 20. september 2024 fra 10:00-15:00, med mulighed for networking...
More

ALT-EDIC søger en direktør til at drive arbejdet med europæisk sprogteknologi
16. april 2024

STILLINGSOPSLAG Direktør for alliancen for sprogteknologier — europæisk konsortium for digital infrastruktur (ALT-EDIC) Ansøgningsfrist (CET):...
More