Datasæt

Coral tekst-til-tale datasæt

Datasættet består af oplæsninger fra to professionelle danske talere, en kvinde og en mand, som har indlæst cirka 24 timers dansk tale hver.

Datasættet er en del af CoRal-projektet (Danish Conversational and Read-aloud Speech Dataset), som er et bredt samarbejdsprojekt mellem Alexandra Instituttet, Datalogisk institut ved Københavns Universitet (DIKU), Alvenir og Cort. CoRal er finansieret og støttet af Digitaliseringsstyrelsen og Den Danske Innovationsfond.

Tekstdata er udvalgt af Alexandra Instituttet og består af sætninger fra lex.dk, sundhed.dk, borger.dk, navne på busstoppesteder og stationer, manuelt filtrerede Reddit-kommentarer samt datoer og tidspunkter.

Lyddata er optaget af den offentlige institution Nota, som er en del af Kulturministeriet.

Data og ressourcer

CoRal TTS - parquethttp://publications.europa.eu/resource/authority/file-type/HTML
Tilgå data via Hugging Face i parquet format.
Udforsk
- Mere information
- Gå til ressource

Nøgleord

Yderligere info

URI	https://data.gov.dk/dataset/lang/4724db01-4792-4bdb-8721-797737fec4ed
Destinationsside	https://huggingface.co/datasets/alexandrainst/coral-tts
Høstes af Datavejviser	Ja
Udgivelsesdato	16-04-2024
Seneste ændringsdato	16-04-2024
Opdateringsfrekvens	uregelmæssig
Dækningsperiode	/
Emne(r)	16.05.07 Sprog og retskrivning Uddannelse, kultur og sport
Adgangsrettigheder	offentlig
Overholder
Proveniensudsagn	Datalogisk institut ved Københavns Univeristet (DIKU), Corti, Alvenir og Innovationsfonden.
Dokumentation