-
10.000 mest frekvente lemmaer
Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca.... -
word2vec: Danish DSL and Reddit word2vec word embeddings
Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord,... -
Danish Gigaword
A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so... -
NST N-gram – dansk nyhendetekst
Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken.... -
Europarl
Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende... -
DanPASS-korpus (Danish Phonetically Annotated Spontaneous Speech)
The DanPASS corpus was developed for research and applied research purposes. It consists of of non-scripted monologues and dialogues, recorded by 27 speakers, comprising a total... -
Bornholmsk (NLP tools / data for Bornholmsk)
Language processing resources and tools for Bornholmsk, a language spoken on the island of Bornholm, with roots in Danish and closely related to Scanian. Includes corpora, word... -
CDT - The Copenhagen Danish-English Dependency Treebank
The Copenhagen Dependency Treebanks are a set of treebanks for Danish, English, Spanish and Italian. The purpose of the Copenhagen Dependency Treebank project is to create...
Du kan også tilgå dette register med API (se API-dokumenter).