Datasæt - sprogteknologi.dk

Retsinformation

Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...

XML
HTML
PDF

Scrape af Retsinformation

Dansk etsproget korpus på 3,708,693 sætninger, med indhold scrapet fra www.retsinformation.dk. Korpusset er et stillbillede af indholdet på retsinformation og er ikke blevet...

Plain text

Scandinavian Embedding Benchmark (SEB)

Scandinavian Embedding Benchmark (SEB), er en benchmarking platform til de Skandinaviske sprog (Dansk, Nynorsk, Bokmål, og Svensk). Benchmarket forsøger at evaluerer kvaliteten...

HTML

ScandEval

ScandEval er en benchmarking platform for sprogmodeller på dansk, norsk (både bokmål og nynorsk), svensk, islandsk og færøsk. Den indeholder først og fremmest en benchmarking...

HTML

Senda

Et værktøj til at fine-tune til NLP Transformers til sentiment analyse. Udkommer sammen med et sæt modeller fine-tunet til sentiment-analyse på dansk (udgivet på Hugging Face)....

HTML

Finansministeriets udgivelser

Finansministeriet spiller en helt central rolle for skiftende regeringers økonomiske politik. Ministeriet er blandt andet ansvarlig for udarbejdelsen af de årlige finanslove,...

PDF

Terminologi på skatteområdet

Terminologien er resultatet af begrebsafklaring på skatteområdet (knap 100 skattebegreber på dansk og engelsk), som blev foretaget i 2012, og som udgjorde det eksperimentelle...

PDF
Excel XLSX
SKOS

CST Lemmatiser

CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet.

HTML

DK-CLARIN LSP Corpus

The LSP (Language for Special Purposes) corpus consists of texts from seven selected domains. The DK-CLARIN LSP corpus comprises 11 M tokens from the period 2000-2010,...

XML

Folketingets Åbne Data

Folketingets åbne data omfatter: metadata om sager og dokumenter i det parlamentariske arbejde i Folketingssalen samt udvalg fra oktober 2013 og fremefter. Herunder data om...

JSON
XML

Leipzig Corpora Collection

The Leipzig Corpora Collection provides different tools and data for download, which are protected by copyright. For more details please refer to our terms of usage....

Plain text

JEX - EuroVoc Indexer

JEX is multi-label classification software that automatically assigns a ranked list of the over six thousand descriptors (classes) from the controlled vocabulary of the EuroVoc...

Binary Data

EUIPO - Trade mark Guidelines (October 2017) (English-Danish) (Processed)

The EUIPO Guidelines are the main point of reference for users of the European Union trade mark system and professional advisers who want to make sure they have the latest...

TMX

Danish Similarity Data Set

The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges...

CSV

Context-Aware-Splitter

Context-aware-splitter er en model til retrieval augmented generation. Modellen er udviklet til at opdele tekster på den mest optimale måde givet en kontekst. Opdeling af...

Binary Data

AFINN

Ordliste og værktøj til sentimentanalyse skrevet i Python.

Plain text

Bornholmsk Ordbog

Bornholmsk Ordbog er en digital samling af en række bornholmske glossarer og ressourcer, herunder bornholmsksprogede tekster. Ordbogen er en metaordbog, der forener en række...

HTML

Danmarks Administrative Geografiske Inddeling (DAGI)

Danmarks Administrative Geografiske Inddeling (DAGI) er et standardiseret referencedatasæt, som viser landets administrative inddelinger. DAGI-datasættet er ikke færdige...

GML
HTML

Danske Stednavne

Danske Stednavne er det officielle register for stednavne i Danmark og indeholder stednavne på alt lige fra træet Kongeegen og byen Centrum til øen Fyn. Der er cirka 140.000...

XML
JSON

Danish Legal monolingual corpus from the contents of the retsinformation.dk web site

Danish Legal monolingual corpus from the contents of the retsinformation.dk web site This dataset has been created within the framework of the European Language Resource...

Plain text

194 datasæt fundet