Skip to main content

26 datasæt fundet

Licenser: CC-BY-4.0 - Creative Commons Attribution 4.0

Filtrér resultater
  • #twitterhjerne

    "#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.
  • HyggeSwag

    “HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...
  • Fornavne og efternavne i befolkningen i Danmark

    Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...
  • Navne i hele befolkningen (top-20)

    Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for...
  • Danish Similarity Data Set

    The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges...
  • The DK-CLARIN JRC-Acquis Parallel Corpus (da, en)

    The DK-CLARIN JRC-Acquis Parallel Corpus (da, en) is a part of the JRC-Acquis mulilingual parallel corpus, containing documents from The Acquis Communautaire (AC) which is the...
  • The Danish Parliament Corpus 2009-2017, v2, w. subject annotation

    The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 2009 til 2017 (6/10 2009 - 7/9 2017) og er...
  • RøBÆRTa

    RøBÆRTa er en dansk præ-trænet Roberta sprogmodel. RøBÆRTa er blevet trænet på det danske mC4 datasæt i forbindelse med flax community week. Modellen er trænet til at gætte et...
  • The Leipzig Collection - Dansk sentiment

    Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...
  • Medical Spelling dictionary (processed)

    Medical spelling dictionary with terms in Danish, English and Latin This dataset has been created within the framework of the European Language Resource Coordination (ELRC)...
  • Lex.dk - open

    Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler...
  • Klimarådets virkemiddelkatalog

    Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...
  • ScandiQA

    ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål...
  • Scandi Reddit Filtered

    ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter...
  • KlimaBERT

    KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra...
  • Klimarådets Udgivelser

    Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...
  • Bilingual corpus made out of PDF documents from the European Medicines...

    EN-DA Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA), https://www.ema.europa.eu, (February 2020). Attribution details: This dataset has...
  • Dansk ELECTRA

    ELECTRA model prætrænet på dansk, på 17,5 GB data. Du kan læse mere om ELECTRA træningsmetoden i denne forskningsartikel: ELECTRA: Pre-training Text Encoders as Discriminators...
  • Dansk ConvBERT

    To forskellige størrelser ConvBERT modeller prætrænet på dansk tekstdata (omtrent 17,5 GB data). Til prætræning er der anvendt ELECTRA Pretraining metoden. ConvBERT er en...
  • Europarl

    Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende...
Du kan også tilgå dette register med API (se API-dokumenter).