-
Ha&te
Repository, som indeholder kode og modelvægtene til Ha&te algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet til at... -
DCEP: Digitalt korpus fra Europa-Parlamentet
The Digital Corpus of the European Parliament (DCEP) contains the majority of the documents published on the European Parliament's official website. It comprises a variety of... -
DASEM Compounds
List of a limited number of Danish compound words. Each line lists a word with one or more vertical bar as the separator between the individual parts of the compound word. -
DaLUKE
DaLUKE er udviklet i forbindelse med et bachelorprojekt i Kunstig Intelligens og Data ved Danmarks Tekniske Universitet. DaLUKE er en dansk version af LUKE, som er en... -
DaCy
DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser... -
Dansk ELECTRA
ELECTRA model prætrænet på dansk, på 17,5 GB data. Du kan læse mere om ELECTRA træningsmetoden i denne forskningsartikel: ELECTRA: Pre-training Text Encoders as Discriminators... -
Dansk ConvBERT
To forskellige størrelser ConvBERT modeller prætrænet på dansk tekstdata (omtrent 17,5 GB data). Til prætræning er der anvendt ELECTRA Pretraining metoden. ConvBERT er en... -
Free Gutenberg E-books
Et bibliotek med over 60.000 Gutenberg e-bøger. Læs mere om licenser og copyright her: https://www.gutenberg.org/wiki/Category:How-To -
Ælectra
Ælæctra er en transformer-baseret NLP sprogmodel, der er udarbejdet ved at benytte prætræningsmetoden ELECTRA-Small på The Danish Gigaword Projects datasæt (Der henvises til... -
Jysk Ordbog
Jysk Ordbog (a-h) dækker over jyske dialekter i perioden 1700-1920. Størstedelen af ordbogens kilder afspejler jysk dialekt og landbokultur i perioden 1850-1920. Ordbogen... -
Johannes V Jensen Korpus
Elektroniske versioner af størstedelen af Johannes V. Jensens udgivelser. I regi af CLARIN-projektet og i samarbejde med rettighedshaverne, gjorde Jensen Forum i 2011... -
WikiMatrix
135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please cite... -
Wikidata
The free knowledge base anyone can edit https://wikidata.org -
Grundtvigs værker
Gruntvig's Works version 1,12. april 2018 contains N.F.S. Grundtvig's authorship. Corpus folder containing edited texts and OCR texts. Creator: Ravn, Kim Steen License:... -
A&ttack
Algoritmen er trænet vha. et annoteret datasæt med 67.188 tekststykker. Teksstykkerne er kommentarer og svar afgivet på opslag i en række offentlige Facebook Pages og større... -
Europarl
Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende... -
DUDS Jens Bille's Ballad Book, v. 1.1
DUDS Jens Bille’s Ballad Book belongs to a corpus of the oldest Danish ballad tradition. The corpus consists of 9 ballad books handed down from Renaissance ballad collectors... -
Dictionary for the CST Lemmatizer
Binary wordlists for the CST lemmatizer as suplement to the rules of the lemmatizer. Works with both tagged and untagged input. Use: cstlemma -d NAME-OF-WORDLIST. -
DGT-Translation Memory
DGT-TM er en oversættelseshukommelse (sætninger og deres manuelt fremstillede oversættelse) på 24 sprog. Den indeholder segmenter fra den gældende fællesskabsret – EU-... -
DASEM WordSim-353-da
Dansk oversættelse af WordSim-353-word similarity datasættet som vedligeholdes af Evgeniy Gabrilovich.
Du kan også tilgå dette register med API (se API-dokumenter).