-
Lyd fra Folketinget
Lyd fra alle optagelser fra Folketingets møder i Folketingssalen samt fra høringer og samråd. Lydoptagelserne er identiske med lyden fra tv-optagelserne fra møderne. Du kan... -
Lex.dk - open
Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler... -
Kommunal semantisk grundmodel 1
Kommunal Semantisk Grundmodel nr. 1 er en videretræning af det Norske nationalbiblioteks AI laboratories (NbAiLab) BERT-Base sprogmodel, og er trænet på 2,672,566 unikke... -
Stortinget Speech Corpus version 1.0
The Stortinget Speech Corpus (SSC) is a 5000+ hours speech dataset for weak supervision ASR created from audio and aligned proceedings text from Stortinget, the Norwegian... -
XLS-R-300m-danish-nst-cv9
'Finetuned version af XLS-R-300m-danish til talegenkendelse på dansk. Modellen er finetuned på træningssættet af NST ASR og Common Voice 9, og har en word error rate på 5-10% på... -
XLS-R-300m-danish
XLS-R-300m-danish er en general dansk talemodel der bygger på wav2vec2.0 arkitekturen og er en fortsat prætræning af XLS-R checkpointet. Modellen er trænet på 141.000 timers... -
Klimarådets virkemiddelkatalog
Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med... -
Context-Aware-Splits
Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er... -
SemDaX
The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN... -
ScandiQA
ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål... -
ScandiNER
ScandiNER er en NER (named entity recognition) model, som er bygget på den norske model fra det norske nationalbiblioteks AI labbet. Modellen er fin tunet på et kombineret... -
Scandi Reddit Filtered
ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter... -
KlimaBERT
KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra... -
Klimarådets Udgivelser
Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med... -
Bilingual corpus made out of PDF documents from the European Medicines...
EN-DA Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA), https://www.ema.europa.eu, (February 2020). Attribution details: This dataset has... -
DanskGPT-Tiny
DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA. Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst.... -
Bilingual English-Danish parallel corpus from the official Nordic cooperation website
Contents of the Nordic Co-operation web site http://www.norden.org downloaded and converted into a parallel corpus This dataset has been created within the framework of the... -
Bilingual English-Danish parallel corpus from VisitDenmark - The official...
Contents of https://www.visitdenmark.dk were crawled, aligned on document and sentence level and converted into a parallel corpus. This dataset has been created within the... -
Bilingual English-Danish parallel corpus from Visit Vejle website
Contents of https://www.visitvejle.com were crawled, aligned on document and sentence level and converted into a parallel corpus. This dataset has been created within the... -
Bilingual English-Danish parallel corpus from The Viking Ship Museum website
Contents of https://www.vikingeskibsmuseet.dk were crawled, aligned on document and sentence level and converted into a parallel corpus. Contains 12403 translation units (EN-...
Du kan også tilgå dette register med API (se API-dokumenter).