SpaCy - nu også med modeller på dansk
17. juni 2020
Software-virksomheden Explosion har bygget videre på en række danske sprogressourcer og tilbyder nu spaCy v2.3 med modeller for fem nye sprog – heriblandt dansk. Du kan finde metadata om de danske sprogressourcer hér på sprogteknologi.dk.
Software-virksomheden Explosion har specialiseret sig i udviklingsværktøjer til understøttelse af kunstig intelligens og NLP (Natural Language Processing) og står bag spaCy, der er et open source library til avanceret NLP. Explosion tilbyder nu Version 2.3 af spaCy Natural Language Processing library, der bl.a. tilføjer modeller for fem nye sprog – heriblandt dansk. Træningsdata for bl.a. dansk er relativt små, så de prætrænede ordvektorer forbedrer nøjagtigheden ganske meget, især for navnegenkendelse (NER).
SpaCy bygger videre på danskudviklede datasæt
SpaCy’s nye danske modeller er trænet på bl.a. Danish Universal Dependencies DDT (Anders Johannsen, Héctor Martínez Alonso og Barbara Plank, 2015), der igen er en videreudvikling af CDT - The Copenhagen Danish English Dependency Treebank (Buch-Kromann et al, 2003), samt DaNe datasættet, hvor Alexandra Instituttet har tilføjet NER annoteringer til Danish Universal Dependencies Treebank (Hvingelby et al. 2020).
Opdaterede træningsdata
Alle spaCys træningskorpora baseret på Universal Dependencies korpora er blevet opdateret til UD v2.5. De opdaterede data forbedrer kvaliteten og størrelsen af træningskorpora og øger både modellernes tagger- og parser-nøjagtighed.