Skip to main content

DaCy

DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser for at brugeren kan vælge mellem eget hastighed eller bedre prediktioner. Pipelinen er trænet og implementeret i SpaCy og har opnået den bedste performance på en række danske sprogteknologiske opgaver, heriblandt entitetsgenkendelse (Named-entity recognition), grammatisk tagging samt syntaktisk analyse (part-of-speech tagging og dependency parsing). Projektet indeholder både dokumentation over træning af modellen samt dokumentation for bruget af modellen. Foruden dens egne trænede modeller kan man i DaCy også benytte andre danske sprogteknologier heriblandt værktøjer til kvantificering af følelsesladet indhold i tekst.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/fb005c42-555b-4a40-b502-94d3f57e3d3e
Destinationsside https://github.com/KennethEnevoldsen/DaCy
Høstes af Datavejviser
Udgivelsesdato 28-02-2021
Seneste ændringsdato 28-05-2021
Opdateringsfrekvens kontinuerlig
Dækningsperiode  / 
Emne(r)
  • 16.05.07 Sprog og retskrivning
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn

Datastatement: Indledende resultater har vist at DaCy klarer sig bedre og på kvindelige og ikke-danske navne end sammenliglige danske modeller. Denne test er blevet udført af personer uden relation til DaCy projektet. For mere information se Martin Jespersens Benchmark på Fairness. https://github.com/martincjespersen/DaAnonymization

Dokumentation