-
CST Mulinco
MULINCO - MUltiLINgual Corpus of the University of COpenhagen. 7 eventyr af H.C.Andersen, tekster af Edgar Allen Poe, Saxos Danmarks historie og EU-traktater på flere sprog... -
COVID-19 EUR-LEX dataset. Bilingual (EN-DA)
Bilingual (EN-DA) corpus acquired from website (https://eur-lex.europa.eu/legal-content) of the EU portal (9th July 2020). Contains 21238 translations units (DA-EN) -
COVID-19 EUROPARL dataset v2. Bilingual (EN-DA)
Bilingual (EN-DA) corpus acquired from the website (https://www.europarl.europa.eu/) of the European Parliament (9th May 2020). Contains 633 translation units (DA-EN). -
COVID-19 EU presscorner v2 dataset. Bilingual (EN-DA)
Bilingual (EN-DA) corpus acquired from website (https://ec.europa.eu/commission/presscorner/) of the EU portal (8th July 2020). Contains 6261 translation units (DA-EN). -
COVID-19 EC-EUROPA v1 dataset. Bilingual (EN-DA)
Bilingual (EN-DA) corpus acquired from website (https://ec.europa.eu/*coronavirus-response) of the EU portal (20th May 2020). Contains 2803 translation units (DA-EN). -
COVID-19 ANTIBIOTIC dataset. Bilingual (EN-DA)
This dataset has been generated out of public content available through the portal (https://antibiotic.ecdc.europa.eu/) of the European Centre for Disease Prevention and Control... -
CoRal Models Platform
CoRal-Models er en kodebase, som gør det enkelt at finjustere prætrænede lydmodeller, såsom Wav2Vec 2.0 eller Whisper, på et eller flere datasæt med transskriberet lyddata. Både... -
CopCo: The Copenhagen Corpus of Eye-Tracking Recordings from Natural Reading
CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige... -
CDT - The Copenhagen Danish-English Dependency Treebank
The Copenhagen Dependency Treebanks are a set of treebanks for Danish, English, Spanish and Italian. The purpose of the Copenhagen Dependency Treebank project is to create... -
Angry Tweets Binary
Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til... -
Alvenir Wav2vec2
En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal... -
Alvenir ASR evalueringsdata
Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år.... -
Alvenir punctuation restoration
Et nemt og tilgængeligt værktøj, som automatisk sætter punktum og komma i fritekst. Værktøjet understøtter både dansk, engelsk og tysk. Værktøjet er udviklet af Alvenir. -
Common Voice (Dansk)
Crowdsourced talekorpus på en lang række sprog. Korpusset er blevet skabt ved, at frivillige har doneret sætninger, oplæsninger af sætninger, samt validering af oplæsninger til...
Du kan også tilgå dette register med API (se API-dokumenter).