Skip to main content

194 datasæt fundet

Filtrér resultater
  • Ha&te

    Repository, som indeholder kode og modelvægtene til Ha&te algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet til at...
  • DCEP: Digitalt korpus fra Europa-Parlamentet

    The Digital Corpus of the European Parliament (DCEP) contains the majority of the documents published on the European Parliament's official website. It comprises a variety of...
  • DASEM Compounds

    List of a limited number of Danish compound words. Each line lists a word with one or more vertical bar as the separator between the individual parts of the compound word.
  • DaLUKE

    DaLUKE er udviklet i forbindelse med et bachelorprojekt i Kunstig Intelligens og Data ved Danmarks Tekniske Universitet. DaLUKE er en dansk version af LUKE, som er en...
  • DaCy

    DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser...
  • Dansk ELECTRA

    ELECTRA model prætrænet på dansk, på 17,5 GB data. Du kan læse mere om ELECTRA træningsmetoden i denne forskningsartikel: ELECTRA: Pre-training Text Encoders as Discriminators...
  • Dansk ConvBERT

    To forskellige størrelser ConvBERT modeller prætrænet på dansk tekstdata (omtrent 17,5 GB data). Til prætræning er der anvendt ELECTRA Pretraining metoden. ConvBERT er en...
  • Free Gutenberg E-books

    Et bibliotek med over 60.000 Gutenberg e-bøger. Læs mere om licenser og copyright her: https://www.gutenberg.org/wiki/Category:How-To
  • Ælectra

    Ælæctra er en transformer-baseret NLP sprogmodel, der er udarbejdet ved at benytte prætræningsmetoden ELECTRA-Small på The Danish Gigaword Projects datasæt (Der henvises til...
  • Jysk Ordbog

    Jysk Ordbog (a-h) dækker over jyske dialekter i perioden 1700-1920. Størstedelen af ordbogens kilder afspejler jysk dialekt og landbokultur i perioden 1850-1920. Ordbogen...
  • Johannes V Jensen Korpus

    Elektroniske versioner af størstedelen af Johannes V. Jensens udgivelser. I regi af CLARIN-projektet og i samarbejde med rettighedshaverne, gjorde Jensen Forum i 2011...
  • WikiMatrix

    135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please cite...
  • Wikidata

    The free knowledge base anyone can edit https://wikidata.org
  • Grundtvigs værker

    Gruntvig's Works version 1,12. april 2018 contains N.F.S. Grundtvig's authorship. Corpus folder containing edited texts and OCR texts. Creator: Ravn, Kim Steen License:...
  • A&ttack

    Algoritmen er trænet vha. et annoteret datasæt med 67.188 tekststykker. Teksstykkerne er kommentarer og svar afgivet på opslag i en række offentlige Facebook Pages og større...
  • Europarl

    Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende...
  • DUDS Jens Bille's Ballad Book, v. 1.1

    DUDS Jens Bille’s Ballad Book belongs to a corpus of the oldest Danish ballad tradition. The corpus consists of 9 ballad books handed down from Renaissance ballad collectors...
  • Dictionary for the CST Lemmatizer

    Binary wordlists for the CST lemmatizer as suplement to the rules of the lemmatizer. Works with both tagged and untagged input. Use: cstlemma -d NAME-OF-WORDLIST.
  • DGT-Translation Memory

    DGT-TM er en oversættelseshukommelse (sætninger og deres manuelt fremstillede oversættelse) på 24 sprog. Den indeholder segmenter fra den gældende fællesskabsret – EU-...
  • DASEM WordSim-353-da

    Dansk oversættelse af WordSim-353-word similarity datasættet som vedligeholdes af Evgeniy Gabrilovich.
Du kan også tilgå dette register med API (se API-dokumenter).