Skip to main content

Scandi Reddit Filtered

ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter de blev filtreret ved FastText detection modellen. Alle kommentarer, der blev registreret som dansk, norsk, svensk eller islandsk, med en confidence score over 70%, blev gemt.

De resterende kommentarer blev tjekket for dubletter, som resulterede i at omkring 438000 kommentarer blev slettet. 5000 bot kommentarer og omkring 189000 upassende kommentarer blev ligeledes fjernet. Til sidst, blev også nær-dubletter fjernet. Det er alle, der har over 80% af deres ord 5-grams til fælles.

Datasættets primære opgave er træning af sprogmodeller, og er tilgængeligt på dansk, svensk, norsk og islandsk under CC BY 4.0 licens.

Dan Saattrup Nielsen fra Alexandra Instituttet har kureret datasættet.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/84531738-188a-4a99-8273-867b5e3bfdf1
Destinationsside https://huggingface.co/datasets/alexandrainst/scandi-reddit-filtered
Høstes af Datavejviser
Udgivelsesdato 14-11-2023
Seneste ændringsdato 14-11-2023
Opdateringsfrekvens ubekendt
Dækningsperiode  / 
Emne(r)
  • 16.05.07 Sprog og retskrivning
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn
Dokumentation