Skip to main content

22 datasæt fundet

Tags: Tekst

Filtrér resultater
  • DK-CLARIN Parallel Financial Corpus (da-en)

    The DK-CLARIN Parallel Financial Corpus comprises 4.3 M Danish and 4.8 M English tokens from translated (parallel) documents, mainly annual reports, of the period 2002-2010 from...
  • DanNet

    DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for...
  • 10.000 mest frekvente lemmaer

    Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca....
  • DK-CLARIN Referencekorpus med dansk almensprog

    DK-CLARIN Reference Corpus of General Danish has been collected as part of DK-CLARIN project, WP2.1, 2008 - 2011. All texts are in XML TEIP5 format (TEIP5DKCLARIN-format), with...
  • DSL Synonymliste

    Genereret automatisk fra Den Danske Ordbog og indeholder synonymer i onlineudgaven juni 2018. Ord + oplysning om 1-2 synonymer (1,6 synonymer pr. ordbetydning i gmsnt.). ÅBEN-...
  • CoREST

    CoREST er et værktøj til sproglige undersøgelser i meget store tekstsamlinger, såkaldte tekstkorpusser. CoREST står for Corpus Retrieval System and Tools. OBS! CoREST kan ikke...
  • DSL Fuldformsliste

    Fuldformsleksikon med samtlige bøjningsformer for 80.000 danske lemmaer samt oplysninger om ordklasse og bøjning. Lemmaerne er indsamlet fra forskellige ældre ordbogskilder fra...
  • Autoriserede stednavne i Danmark

    28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis...
  • CST Lemmatiser

    CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet.
  • AFINN

    Ordliste og værktøj til sentimentanalyse skrevet i Python.
  • Danish Gigaword

    A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so...
  • DUDS Jens Bille's Ballad Book, v. 1.1

    DUDS Jens Bille’s Ballad Book belongs to a corpus of the oldest Danish ballad tradition. The corpus consists of 9 ballad books handed down from Renaissance ballad collectors...
  • Dansk Wikiquote

    Maskinlæsbar version af dumps fra den danske wikipedias citater. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
  • Danish Dependency Treebank (DaNE)

    DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish...
  • Bidirectional Long-Short Term Memory tagger

    A toolkit for Part-of-Speech tagging and NER in DyNet. It has been tested on Danish, amongst other languages (for the UD POS tags in the UD_Danish-DDT version 1.1 and 2.3)...
  • Bornholmsk (NLP tools / data for Bornholmsk)

    Language processing resources and tools for Bornholmsk, a language spoken on the island of Bornholm, with roots in Danish and closely related to Scanian. Includes corpora, word...
  • Danish Universal Dependencies DDT (UD_Danish-DDT)

    The Danish Universal Dependencies treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish Dependency Treebank (Buch-Kromann et al. 2003) based on texts from...
  • CVR-data

    Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs....
  • CST's tokeniserings- og segmenteringsprogram

    CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer. Opdeler en tekst i ord og ordforbindelser
  • CST STO

    The STO (SprogTeknologisk Ordbase) lexicon is a comprehensive computational lexicon of Danish developed for NLP/HLT applications. The syntax layer of the lexicon, presented here...
Du kan også tilgå dette register med API (se API-dokumenter).