-
DK-CLARIN Parallel Financial Corpus (da-en)
The DK-CLARIN Parallel Financial Corpus comprises 4.3 M Danish and 4.8 M English tokens from translated (parallel) documents, mainly annual reports, of the period 2002-2010 from... -
DanNet
DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for... -
10.000 mest frekvente lemmaer
Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca.... -
DK-CLARIN Referencekorpus med dansk almensprog
DK-CLARIN Reference Corpus of General Danish has been collected as part of DK-CLARIN project, WP2.1, 2008 - 2011. All texts are in XML TEIP5 format (TEIP5DKCLARIN-format), with... -
DSL Synonymliste
Genereret automatisk fra Den Danske Ordbog og indeholder synonymer i onlineudgaven juni 2018. Ord + oplysning om 1-2 synonymer (1,6 synonymer pr. ordbetydning i gmsnt.). ÅBEN-... -
CoREST
CoREST er et værktøj til sproglige undersøgelser i meget store tekstsamlinger, såkaldte tekstkorpusser. CoREST står for Corpus Retrieval System and Tools. OBS! CoREST kan ikke... -
DSL Fuldformsliste
Fuldformsleksikon med samtlige bøjningsformer for 80.000 danske lemmaer samt oplysninger om ordklasse og bøjning. Lemmaerne er indsamlet fra forskellige ældre ordbogskilder fra... -
Autoriserede stednavne i Danmark
28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis... -
CST Lemmatiser
CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. -
AFINN
Ordliste og værktøj til sentimentanalyse skrevet i Python. -
Danish Gigaword
A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so... -
DUDS Jens Bille's Ballad Book, v. 1.1
DUDS Jens Bille’s Ballad Book belongs to a corpus of the oldest Danish ballad tradition. The corpus consists of 9 ballad books handed down from Renaissance ballad collectors... -
Dansk Wikiquote
Maskinlæsbar version af dumps fra den danske wikipedias citater. Se https://foundation.wikimedia.org/wiki/Terms_of_Use -
Danish Dependency Treebank (DaNE)
DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish... -
Bidirectional Long-Short Term Memory tagger
A toolkit for Part-of-Speech tagging and NER in DyNet. It has been tested on Danish, amongst other languages (for the UD POS tags in the UD_Danish-DDT version 1.1 and 2.3)... -
Bornholmsk (NLP tools / data for Bornholmsk)
Language processing resources and tools for Bornholmsk, a language spoken on the island of Bornholm, with roots in Danish and closely related to Scanian. Includes corpora, word... -
Danish Universal Dependencies DDT (UD_Danish-DDT)
The Danish Universal Dependencies treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish Dependency Treebank (Buch-Kromann et al. 2003) based on texts from... -
CVR-data
Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs.... -
CST's tokeniserings- og segmenteringsprogram
CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer. Opdeler en tekst i ord og ordforbindelser -
CST STO
The STO (SprogTeknologisk Ordbase) lexicon is a comprehensive computational lexicon of Danish developed for NLP/HLT applications. The syntax layer of the lexicon, presented here...
Du kan også tilgå dette register med API (se API-dokumenter).