-
Evalueringsdatasæt for 1000 danske talemåder og faste udtryk
Det Danske Sprog- og Litteraturselskab har udviklet et datasæt til evaluering af sprogmodeller på dansk. Datasættet indeholder samlet 1000 danske talemåder og faste udtryk med... -
Scrape fra dokumentsamling på Vip Region Hovedstaden
Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og... -
Nota lyd- og tekstdata
Datasættet indeholder både tekst- og taledata fra udvalgte dele af Nota's lydbogsbibliotek. Datasættet består af over 500 timers oplæsninger og medfølgende transskriptioner på... -
Røst-315M
RØST-315M is a speech recognition model based on the CoRal-dataset, and the model is a product of the CoRal-project. CoRal is a project that aims to produce datasets that are... -
AI-Aktindsigt: Skrab af Kommunale Hjemmesider
Datasættet består af flere skrab af kommunale hjemmesider udarbejdet i forbindelse med arbejdet med AI-aktindsigt projektet. Skrabet er lavet på forskellige domæner fra flere... -
Danmarks Adresseregister (DAR)
Der er registreret ca. 3,5 millioner adresser i DAR og ca. 110.000 vejnavne. Der blev i 2017 oprettet ca. 52.000 nye adresser og 400 nye vejnavne, desuden ændres og nedlægges et... -
NB-BERT
"NB-BERT-base is a general BERT-base model built on the large digital collection at the National Library of Norway. This model is based on the same structure as BERT Cased... -
Danoliterate Mistral 7B
Modellen "Danoliterate Mistral 7B" er en stor sprogmodel tilpasset fra Mistral AI's Mistral 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en... -
Danoliterate Baseline Model 7B
Modellen "Danoliterate Baseline 7B" er en stor sprogmodel trænet fra bunden på en blanding af dansk data. Modellen har 7 milliarder parametre, arkitekturen fra LlaMa 2 7B og er... -
Danoliterate Llama 7B
Modellen "Danoliterate LlaMa 7B" er en stor sprogmodel tilpasset fra Meta AI's LlaMa 2 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en basismodel,... -
Hviske
Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle... -
Named Entity Recognition dataset til Danske juridiske tekster
Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8... -
spaCY - statistiske modeller for dansk
Danish multi-task CNN trained on UD Danish DDT and DaNE. Assigns context-specific token vectors, POS tags, dependency parses and named entities. Sources: Danish Universal... -
Hisia
ML Powered Danish Sentiment Model. -
DaAnonymization
DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet... -
Rec&nition
Dette repository indeholder kode og modelvægtene til Rec&nition algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet... -
NERDA
NERDA' er et værktøj (udgivet som Python-pakke) til at fine-tune NLP transformer-modeller til at identificere personer, organisationer, lokationer m.m. i tekster (=Named-Entity... -
Citizenship Tests Da.
“Citizenship Tests Da.” er et spørgsmåls/svar-datasæt, der strukturerer flere års indfødsrets- og medborgerskabsprøver til brug af evaluering af sprogmodeller på dansk.... -
#twitterhjerne
"#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet. -
HyggeSwag
“HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...
Du kan også tilgå dette register med API (se API-dokumenter).