Skip to main content

A&ttack

Algoritmen er trænet vha. et annoteret datasæt med 67.188 tekststykker. Teksstykkerne er kommentarer og svar afgivet på opslag i en række offentlige Facebook Pages og større grupper. Datasættet er opdelt i et træningsdatasæt (70 procent), et evalueringsdatasæt (20 procent) og et testdatasæt (10 procent). Trænings- og evalueringsdatasættet blev brugt til at træne og udvælge den bedste kombination af algoritmearkitektur og hyperparametre. Til det brugte vi den højest macro average F1 score. Efter udvælgelsen af den bedste algoritme blev denne testet på testdatasættet. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/0d5b65fd-5e43-4362-a65b-429189be7d33
Destinationsside https://github.com/ogtal/A-ttack
Høstes af Datavejviser
Udgivelsesdato 21-05-2021
Seneste ændringsdato
Opdateringsfrekvens ubekendt
Dækningsperiode  / 
Emne(r)
  • 16.05.07 Sprog og retskrivning
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn
Dokumentation