Skip to main content

194 datasæt fundet

Filtrér resultater
  • Evalueringsdatasæt for 1000 danske talemåder og faste udtryk

    Det Danske Sprog- og Litteraturselskab har udviklet et datasæt til evaluering af sprogmodeller på dansk. Datasættet indeholder samlet 1000 danske talemåder og faste udtryk med...
  • Scrape fra dokumentsamling på Vip Region Hovedstaden

    Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og...
  • Nota lyd- og tekstdata

    Datasættet indeholder både tekst- og taledata fra udvalgte dele af Nota's lydbogsbibliotek. Datasættet består af over 500 timers oplæsninger og medfølgende transskriptioner på...
  • Røst-315M

    RØST-315M is a speech recognition model based on the CoRal-dataset, and the model is a product of the CoRal-project. CoRal is a project that aims to produce datasets that are...
  • AI-Aktindsigt: Skrab af Kommunale Hjemmesider

    Datasættet består af flere skrab af kommunale hjemmesider udarbejdet i forbindelse med arbejdet med AI-aktindsigt projektet. Skrabet er lavet på forskellige domæner fra flere...
  • Danmarks Adresseregister (DAR)

    Der er registreret ca. 3,5 millioner adresser i DAR og ca. 110.000 vejnavne. Der blev i 2017 oprettet ca. 52.000 nye adresser og 400 nye vejnavne, desuden ændres og nedlægges et...
  • NB-BERT

    "NB-BERT-base is a general BERT-base model built on the large digital collection at the National Library of Norway. This model is based on the same structure as BERT Cased...
  • Danoliterate Mistral 7B

    Modellen "Danoliterate Mistral 7B" er en stor sprogmodel tilpasset fra Mistral AI's Mistral 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en...
  • Danoliterate Baseline Model 7B

    Modellen "Danoliterate Baseline 7B" er en stor sprogmodel trænet fra bunden på en blanding af dansk data. Modellen har 7 milliarder parametre, arkitekturen fra LlaMa 2 7B og er...
  • Danoliterate Llama 7B

    Modellen "Danoliterate LlaMa 7B" er en stor sprogmodel tilpasset fra Meta AI's LlaMa 2 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en basismodel,...
  • Hviske

    Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle...
  • Named Entity Recognition dataset til Danske juridiske tekster

    Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8...
  • spaCY - statistiske modeller for dansk

    Danish multi-task CNN trained on UD Danish DDT and DaNE. Assigns context-specific token vectors, POS tags, dependency parses and named entities. Sources: Danish Universal...
  • Hisia

    ML Powered Danish Sentiment Model.
  • DaAnonymization

    DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet...
  • Rec&nition

    Dette repository indeholder kode og modelvægtene til Rec&nition algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet...
  • NERDA

    NERDA' er et værktøj (udgivet som Python-pakke) til at fine-tune NLP transformer-modeller til at identificere personer, organisationer, lokationer m.m. i tekster (=Named-Entity...
  • Citizenship Tests Da.

    “Citizenship Tests Da.” er et spørgsmåls/svar-datasæt, der strukturerer flere års indfødsrets- og medborgerskabsprøver til brug af evaluering af sprogmodeller på dansk....
  • #twitterhjerne

    "#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.
  • HyggeSwag

    “HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...
Du kan også tilgå dette register med API (se API-dokumenter).