-
#twitterhjerne
"#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet. -
HyggeSwag
“HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen... -
Fornavne og efternavne i befolkningen i Danmark
Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre... -
Navne i hele befolkningen (top-20)
Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for... -
Danish Similarity Data Set
The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges... -
The DK-CLARIN JRC-Acquis Parallel Corpus (da, en)
The DK-CLARIN JRC-Acquis Parallel Corpus (da, en) is a part of the JRC-Acquis mulilingual parallel corpus, containing documents from The Acquis Communautaire (AC) which is the... -
The Danish Parliament Corpus 2009-2017, v2, w. subject annotation
The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 2009 til 2017 (6/10 2009 - 7/9 2017) og er... -
RøBÆRTa
RøBÆRTa er en dansk præ-trænet Roberta sprogmodel. RøBÆRTa er blevet trænet på det danske mC4 datasæt i forbindelse med flax community week. Modellen er trænet til at gætte et... -
The Leipzig Collection - Dansk sentiment
Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En... -
Medical Spelling dictionary (processed)
Medical spelling dictionary with terms in Danish, English and Latin This dataset has been created within the framework of the European Language Resource Coordination (ELRC)... -
Lex.dk - open
Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler... -
Klimarådets virkemiddelkatalog
Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med... -
ScandiQA
ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål... -
Scandi Reddit Filtered
ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter... -
KlimaBERT
KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra... -
Klimarådets Udgivelser
Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med... -
Bilingual corpus made out of PDF documents from the European Medicines...
EN-DA Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA), https://www.ema.europa.eu, (February 2020). Attribution details: This dataset has... -
Dansk ELECTRA
ELECTRA model prætrænet på dansk, på 17,5 GB data. Du kan læse mere om ELECTRA træningsmetoden i denne forskningsartikel: ELECTRA: Pre-training Text Encoders as Discriminators... -
Dansk ConvBERT
To forskellige størrelser ConvBERT modeller prætrænet på dansk tekstdata (omtrent 17,5 GB data). Til prætræning er der anvendt ELECTRA Pretraining metoden. ConvBERT er en... -
Europarl
Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende...
Du kan også tilgå dette register med API (se API-dokumenter).