-
Evalueringsdatasæt for 1000 danske talemåder og faste udtryk
Det Danske Sprog- og Litteraturselskab har udviklet et datasæt til evaluering af sprogmodeller på dansk. Datasættet indeholder samlet 1000 danske talemåder og faste udtryk med... -
10.000 mest frekvente lemmaer
Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca.... -
DK-CLARIN Referencekorpus med dansk almensprog
DK-CLARIN Reference Corpus of General Danish has been collected as part of DK-CLARIN project, WP2.1, 2008 - 2011. All texts are in XML TEIP5 format (TEIP5DKCLARIN-format), with... -
DSL Synonymliste
Genereret automatisk fra Den Danske Ordbog og indeholder synonymer i onlineudgaven juni 2018. Ord + oplysning om 1-2 synonymer (1,6 synonymer pr. ordbetydning i gmsnt.). ÅBEN-... -
Fejlformer af danske ord
Liste med hyppige fejlstavninger i dansk, knyttet til deres opslagsord i DDO. Listen indeholder de fejlstavede former af opslagsord og bøjningsformer, der registreres i... -
Georg Brandes: Hovedstrømninger i det 19. Aarhundredes Litteratur (1872-1890)
The Danish 1st edition of Georg Brandes' main work "Hovedstrømninger i det 19de Aarhundredes Litteratur" (1872-90, en. Main Currents). The texts are critically edited and... -
Fuldformliste fra Ordbog over det danske sprog
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods samt de bøjningsformer der er registreret til brug for ordbogens søgefunktion. Listen er TAB-separeret... -
COR EXT 1.0
COR.EXT 1.0 indeholder over 25.000 lemmaer fra Den Danske Ordbog, som ikke findes i COR 1.0. COR.EXT 1.0 indeholder ordklasser og de fleste bøjningsformer fra den Danske Ordbog.... -
COR Søgehjælp
COR.SOEGEHJAELP 1.0 er en liste med en række stavefejl og alternative stavemåder (både officielle og uofficielle), samt angivelse af korrekt form.Listen trækker på oplysninger... -
CoREST
CoREST er et værktøj til sproglige undersøgelser i meget store tekstsamlinger, såkaldte tekstkorpusser. CoREST står for Corpus Retrieval System and Tools. OBS! CoREST kan ikke... -
DSL Fuldformsliste
Fuldformsleksikon med samtlige bøjningsformer for 80.000 danske lemmaer samt oplysninger om ordklasse og bøjning. Lemmaerne er indsamlet fra forskellige ældre ordbogskilder fra... -
KorpusDK
Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og... -
Lemmaliste fra Den Danske Ordbog
En liste bestående af alle opslagsord (lemmaer) fra Den Danske Ordbog (DDO). Listen er TAB-separeret og rummer fire felter: opslagsord, evt. homogranummer, ordklasse, artiklens... -
Lemmaliste fra Ordbog over det danske sprog
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods. Listen er TAB-separeret og rummer fire felter: opslagsform, evt. homografnummer, ordklasse og artiklens... -
PAROLE-DK og eParole
PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. ePAROLE (udgivet i 2015) er en revideret... -
word2vec: Danish DSL and Reddit word2vec word embeddings
Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord,...