Datasæt - sprogteknologi.dk

DK-CLARIN Rapid Aligned Corpus 1993-2011 (da-en, da-de)

The aligned corpus consists of press releases from the European Commission Press Relase Database (Rapid) harvested in 2009 and 2011 (http://europa.eu/rapid/search.htm). The...

Plain text
TMX

PIN Analytical

PIN Analytical er en klassifikationsmodel, som registrerer subjektivitet eller objektivitet i en given dansk tekst. Modellen er trænet og testet på Alexandra Instituttets...

Binary Data

The Danish Parliament Corpus 2009-2017, v2, w. subject annotation

The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 2009 til 2017 (6/10 2009 - 7/9 2017) og er...

Plain text

RøBÆRTa

RøBÆRTa er en dansk præ-trænet Roberta sprogmodel. RøBÆRTa er blevet trænet på det danske mC4 datasæt i forbindelse med flax community week. Modellen er trænet til at gætte et...

Binary Data

Compilation of Danish-English parallel corpora resources used for training...

Dette tosproget korpora er bygget af en række forskellige korpusser fra udvalgte offentlige og private korpus og er blevet brugt til at træne NTEU (Neural Translation for the...

TMX

Nordjylland News Image Captioning

Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-image-captioning med artikler fra TV2 Nord. Datasættet består af artiklernes billeder,...

Nordjylland News Summarization

Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-summarization med artikler fra TV2 Nord ved hjælp af mediehusets API. Datasættet har CC0 licens....

The Leipzig Collection - Dansk sentiment

Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...

CSV
HTML

TV fra Folketinget

TV-optagelser og livetransmissioner fra alle Folketingets møder i Folketingssalen samt fra høringer og samråd. Udgivet under følgende licensbetingelser:...

HTML

Referater fra Folketinget

Referater af Folketingets forhandlinger i XML-format. Udgivet under følgende licensbetingel-ser: https://www.ft.dk/da/dokumenter/aabne_data

HTML

Regnskabsdata

Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen. Regnskaber...

PDF
XML

NST dansk ATG-database (16 kHz) – reorganisert

his database was created by Nordic Language Technology for the development of automatic speech recognition and dictation in Danish. In this updated version, the organization of...

Binary Data

NST Danish Dictation (22 kHz)

Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket....

Binary Data

NST Danish ATG Database (16 kHz)

This database was originally developed by Nordic Language Technology in the 1990ies in order to facilitate automatic speech recognition in Danish . A reorganized and more user...

Binary Data

NST udtaleleksikon for dansk

This pronunciation lexicon for Danish was originally produced by Nordic Language Technology (NST), and contains approximately 238,000 entries. The word list consists of a...

Binary Data

NST N-gram – dansk nyhendetekst

Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....

Binary Data
ZIP

Ordia

Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en...

HTML