DTU - Udgivere - sprogteknologi.dk

Danoliterate Mistral 7B

Modellen "Danoliterate Mistral 7B" er en stor sprogmodel tilpasset fra Mistral AI's Mistral 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en...

HTML

Danoliterate Baseline Model 7B

Modellen "Danoliterate Baseline 7B" er en stor sprogmodel trænet fra bunden på en blanding af dansk data. Modellen har 7 milliarder parametre, arkitekturen fra LlaMa 2 7B og er...

HTML

Danoliterate Llama 7B

Modellen "Danoliterate LlaMa 7B" er en stor sprogmodel tilpasset fra Meta AI's LlaMa 2 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en basismodel,...

HTML

Citizenship Tests Da.

“Citizenship Tests Da.” er et spørgsmåls/svar-datasæt, der strukturerer flere års indfødsrets- og medborgerskabsprøver til brug af evaluering af sprogmodeller på dansk....

#twitterhjerne

"#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.

HyggeSwag

“HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...

AFINN

Ordliste og værktøj til sentimentanalyse skrevet i Python.

Plain text

DASEM Compounds

List of a limited number of Danish compound words. Each line lists a word with one or more vertical bar as the separator between the individual parts of the compound word.

Plain text

DASEM WordSim-353-da

Dansk oversættelse af WordSim-353-word similarity datasættet som vedligeholdes af Evgeniy Gabrilovich.

CSV

DASEM Four Words

Komma opdelt fil med fire ord på hver linje, hvor det fjerde ord er en semantisk outlier.

CSV

10 datasæt fundet