Datasæt

A&ttack

Algoritmen er trænet vha. et annoteret datasæt med 67.188 tekststykker. Teksstykkerne er kommentarer og svar afgivet på opslag i en række offentlige Facebook Pages og større grupper. Datasættet er opdelt i et træningsdatasæt (70 procent), et evalueringsdatasæt (20 procent) og et testdatasæt (10 procent). Trænings- og evalueringsdatasættet blev brugt til at træne og udvælge den bedste kombination af algoritmearkitektur og hyperparametre. Til det brugte vi den højest macro average F1 score. Efter udvælgelsen af den bedste algoritme blev denne testet på testdatasættet. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py

Data og ressourcer

A&ttack - Githubhttp://publications.europa.eu/resource/authority/file-type/BIN
Tilgå ressourcen på GitHub i bin format.
Udforsk
- Mere information
- Gå til ressource

Nøgleord

Yderligere info

URI	https://data.gov.dk/dataset/lang/0d5b65fd-5e43-4362-a65b-429189be7d33
Destinationsside	https://github.com/ogtal/A-ttack
Høstes af Datavejviser
Udgivelsesdato	21-05-2021
Seneste ændringsdato
Opdateringsfrekvens	ubekendt
Dækningsperiode	/
Emne(r)	16.05.07 Sprog og retskrivning Uddannelse, kultur og sport
Adgangsrettigheder	offentlig
Overholder
Proveniensudsagn
Dokumentation	https://github.com/ogtal/A-ttack