Skip to main content

10 datasæt fundet

Formater: http://publications.europa.eu/resource/authority/file-type/PARQUET

Filtrér resultater
  • HyggeSwag

    “HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...
  • #twitterhjerne

    "#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.
  • Context-Aware-Splits

    Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
  • Coral tekst-til-tale datasæt

    Datasættet består af oplæsninger fra to professionelle danske talere, en kvinde og en mand, som har indlæst cirka 24 timers dansk tale hver. Datasættet er en del af CoRal-...
  • Danish WIT

    Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med...
  • Nordjylland News Image Captioning

    Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-image-captioning med artikler fra TV2 Nord. Datasættet består af artiklernes billeder,...
  • Nordjylland News Summarization

    Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-summarization med artikler fra TV2 Nord ved hjælp af mediehusets API. Datasættet har CC0 licens....
  • Scandi Reddit Filtered

    ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter...
  • FT-Speech

    FT Speech er et dansk korpus med folketingets taler i lydformat og manuelt transskriberet tekst. Datasættet er blevet kureret af Andreas Kirkedal, Marija Stepanović og Barbara...
  • Citizenship Tests Da.

    “Citizenship Tests Da.” er et spørgsmåls/svar-datasæt, der strukturerer flere års indfødsrets- og medborgerskabsprøver til brug af evaluering af sprogmodeller på dansk....
Du kan også tilgå dette register med API (se API-dokumenter).