Ha&te
Data og ressourcer
-
Ha&tehttp://publications.europa.eu/resource/authority/file-type/BIN
Tilgå Ha&te i bin format på Github.
Nøgleord
Yderligere info
URI | https://data.gov.dk/dataset/lang/e306f8b6-6b1f-44eb-8755-666d039e9f0d |
---|---|
Destinationsside | https://github.com/ogtal/Ha-te |
Høstes af Datavejviser | |
Udgivelsesdato | |
Seneste ændringsdato | |
Opdateringsfrekvens | |
Dækningsperiode | / |
Emne(r) |
|
Adgangsrettigheder | offentlig |
Overholder | |
Proveniensudsagn | Datastatement: "Algortimen er trænet vha. et annoteret datasæt med 11.096 tekststykker. Datasættet indeholder 3.106 eksempler på hadfuldt sprog, 2.990 eksempler på anstødeligt sprog og 5.000 eksempler på tekststykker uden sproglige angreb. De sidste to grupper er sat sammen til en klasse. Teksstykkerne er kommentarer og svar afgivet på opslag i en række offentlige Facebook Pages og større grupper. Datasættet er opdelt i et træningsdatasæt (70 procent), et evalueringsdatasæt (20 procent) og et testdatasæt (10 procnet). Trænings- og evalueringsdatasættet blev brugt til at træne og udvælge den bedste kombination af algoritmearkitektur og hyperparametre. Til det brugte vi den højest macro average F1 score. Efter udvælgelsen af den bedste algoritme blev denne testet på testdatasættet. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py" |
Dokumentation |