CoRal - Danish Conversational and Read-aloud Dataset

Udgiver

Alexandra Instituttet

Alexandra Instituttets udgangspunkt er samfundsmæssige problemstillinger primært virksomheders og organisationers behov for at omsætte de nyeste forskningsresultater til...

Læs mere

Kontaktpunkt

Dan Saattrup Nielsen

dan.nielsen@alexandra.dk

Datasætansvarlig organisation

Alexandra Instituttet

Selskab

URI: https://data.gov.dk/id/organization/b33bcff5-6268-43a0-94dc-29d6edd37aa1

Skaber

Alexandra Instituttet

Selskab

URI: https://data.gov.dk/id/organization/ba726b8c-00da-44b4-80db-842ab122e950

Kvalificeret kreditering

Digitaliseringsstyrelsen
Aktørrolle: Samarbejdspartner (aktør der bistår med genereringen af ressourcen som ikke er primær undersøger)
Aktørtype: National myndighed

Københavns Universitet
Aktørrolle: Samarbejdspartner (aktør der bistår med genereringen af ressourcen som ikke er primær undersøger)
Aktørtype: Akademisk-videnskabelig organisation

Alvenir
Aktørrolle: Samarbejdspartner (aktør der bistår med genereringen af ressourcen som ikke er primær undersøger)
Aktørtype: Selskab

Corti
Aktørrolle: Samarbejdspartner (aktør der bistår med genereringen af ressourcen som ikke er primær undersøger)
Aktørtype: Selskab

Licenser

OpenRAIL-M

Datasæt

CoRal - Danish Conversational and Read-aloud Dataset

CoRal is a comprehensive Automatic Speech Recognition (ASR) dataset designed to capture the diversity of the Danish language across various dialects, accents, genders, and age groups. The primary goal of the CoRal dataset is to provide a robust resource for training and evaluating ASR models that can understand and transcribe spoken Danish in all its variations.

Key Features:

Dialect and Accent Diversity: The dataset includes speech samples from all major Danish dialects as well as multiple accents, ensuring broad geographical coverage and the inclusion of regional linguistic features.

Gender Representation: Both male and female speakers are well-represented, offering balanced gender diversity. Age Range: The dataset includes speakers from a wide range of age groups, providing a comprehensive resource for age-agnostic ASR model development.

High-Quality Audio: All recordings are of high quality, ensuring that the dataset can be used for both training and evaluation of high-performance ASR models.

Forbidden Use Cases Speech Synthesis and Biometric Identification are not allowed using the CoRal dataset. For more information, see addition 4 in our license (https://huggingface.co/datasets/alexandrainst/coral/blob/main/LICENSE).

A research paper will be submitted soon, but until then, if you use the CoRal dataset in your research or development, please cite it as follows:

@dataset{coral2024, author = {Dan Saattrup Nielsen, Sif Bernstorff Lehmann, Simon Leminen Madsen, Anders Jess Pedersen, Anna Katrine van Zee and Torben Blach}, title = {CoRal: A Diverse Danish ASR Dataset Covering Dialects, Accents, Genders, and Age Groups}, year = {2024}, url = {https://hf.co/datasets/alexandrainst/coral}, }

Data og ressourcer

CoRal - Danish Conversational and Read-aloud Datasethttp://publications.europa.eu/resource/authority/file-type/HTML
Find the data here
Udforsk
- Mere information
- Gå til ressource

Nøgleord

Yderligere info

URI	https://data.gov.dk/dataset/lang/79c44568-2a5e-4ff4-9430-6e22da1f432d
Destinationsside	https://huggingface.co/datasets/alexandrainst/coral
Høstes af Datavejviser	Ja
Udgivelsesdato	26-08-2024
Seneste ændringsdato	13-09-2024
Opdateringsfrekvens	opdateres løbende
Dækningsperiode	/
Emne(r)	16.05.07 Sprog og retskrivning Uddannelse, kultur og sport
Adgangsrettigheder	offentlig
Overholder
Proveniensudsagn
Dokumentation	https://huggingface.co/datasets/alexandrainst/coral/blob/main/README.md