-
DaAnonymization
DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet... -
Danish Sentiment Lexicon
Det Danske Sentimentleksikon (DDS) bygger på "Den Danske Begrebsordbog" og "Den Danske Ordbog" og er udarbejdet gennem leksikografiske metoder. DDS tilskriver en negativ eller... -
DaCy
DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser... -
Dansk ELECTRA
ELECTRA model prætrænet på dansk, på 17,5 GB data. Du kan læse mere om ELECTRA træningsmetoden i denne forskningsartikel: ELECTRA: Pre-training Text Encoders as Discriminators... -
Dansk-Ukrainsk-Engelsk Ordbog
Ordbogen ordbog-slovnyk.edition-4 er lavet for at hjælpe ukrainere og danskere i deres kommunikation med hinanden, og den indeholder mere end 3000 hyppige ord samt deres udtale.... -
Dansk Wikisource
Maskinlæsbar version af dumps fra den danske wikipedia kilder. Se https://foundation.wikimedia.org/wiki/Terms_of_Use -
Dansk Wikiquote
Maskinlæsbar version af dumps fra den danske wikipedias citater. Se https://foundation.wikimedia.org/wiki/Terms_of_Use -
Dansk Wikipedia
Maskinlæsbar version af dumps fra den danske wikipedia. Se https://foundation.wikimedia.org/wiki/Terms_of_Use, da der kan forekommer forskellige licensvilkår afhængigt af... -
Compilation of Danish-English parallel corpora resources used for training...
Dette tosproget korpora er bygget af en række forskellige korpusser fra udvalgte offentlige og private korpus og er blevet brugt til at træne NTEU (Neural Translation for the... -
COVID-19 EUR-LEX dataset. Bilingual (EN-DA)
Bilingual (EN-DA) corpus acquired from website (https://eur-lex.europa.eu/legal-content) of the EU portal (9th July 2020). Contains 21238 translations units (DA-EN) -
COVID-19 EUROPARL dataset v2. Bilingual (EN-DA)
Bilingual (EN-DA) corpus acquired from the website (https://www.europarl.europa.eu/) of the European Parliament (9th May 2020). Contains 633 translation units (DA-EN). -
COVID-19 EU presscorner v2 dataset. Bilingual (EN-DA)
Bilingual (EN-DA) corpus acquired from website (https://ec.europa.eu/commission/presscorner/) of the EU portal (8th July 2020). Contains 6261 translation units (DA-EN). -
Alvenir ASR evalueringsdata
Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år.... -
Alvenir punctuation restoration
Et nemt og tilgængeligt værktøj, som automatisk sætter punktum og komma i fritekst. Værktøjet understøtter både dansk, engelsk og tysk. Værktøjet er udviklet af Alvenir.
Du kan også tilgå dette register med API (se API-dokumenter).