Skip to main content

Nordjylland News Summarization

Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-summarization med artikler fra TV2 Nord ved hjælp af mediehusets API. Datasættet har CC0 licens.

Sættet indeholder 75219 samples til træning, 4178 hver til validering og testing. Hver sample indeholder en tekst, en opsummering og karakterlængde. Der er i nuværende tidspunkt intet aktivt leaderboard.

Teksterne varierer fra 21 til 35164 tegn, og opsummeringerne fra 12 til 499 tegn. Der er 181 instances, hvor længden af opsummeringen overstiger længden af den tilhørende tekst.

Datasættets primære opgave er opsummering, men kan med fordel benyttes til andre formål.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/edb30288-7521-4886-bb90-64c5fed72556
Destinationsside https://huggingface.co/datasets/alexandrainst/nordjylland-news-summarization
Høstes af Datavejviser
Udgivelsesdato 19-09-2023
Seneste ændringsdato 28-11-2023
Opdateringsfrekvens ubekendt
Dækningsperiode  / 
Emne(r)
  • 16.05.07 Sprog og retskrivning
  • Uddannelse, kultur og sport
Adgangsrettigheder
Overholder
Proveniensudsagn
Dokumentation