Tilbage

SpaCy - nu også med modeller på dansk

17. juni 2020

Dekorativt indhold.

Software-virksomheden Explosion har bygget videre på en række danske sprogressourcer og tilbyder nu spaCy v2.3 med modeller for fem nye sprog – heriblandt dansk. Du kan finde metadata om de danske sprogressourcer hér på sprogteknologi.dk.

Software-virksomheden Explosion har specialiseret sig i udviklingsværktøjer til understøttelse af kunstig intelligens og NLP (Natural Language Processing) og står bag spaCy, der er et open source library til avanceret NLP. Explosion tilbyder nu Version 2.3 af spaCy Natural Language Processing library, der bl.a. tilføjer modeller for fem nye sprog – heriblandt dansk. Træningsdata for bl.a. dansk er relativt små, så de prætrænede ordvektorer forbedrer nøjagtigheden ganske meget, især for navnegenkendelse (NER).

SpaCy bygger videre på danskudviklede datasæt

SpaCy’s nye danske modeller er trænet på bl.a. Danish Universal Dependencies DDT (Anders Johannsen, Héctor Martínez Alonso og Barbara Plank, 2015), der igen er en videreudvikling af CDT - The Copenhagen Danish English Dependency Treebank (Buch-Kromann et al, 2003), samt DaNe datasættet, hvor Alexandra Instituttet har tilføjet NER annoteringer til Danish Universal Dependencies Treebank (Hvingelby et al. 2020).

Opdaterede træningsdata

Alle spaCys træningskorpora baseret på Universal Dependencies korpora er blevet opdateret til UD v2.5. De opdaterede data forbedrer kvaliteten og størrelsen af træningskorpora og øger både modellernes tagger- og parser-nøjagtighed.

Tilgå spaCy’s danske modeller

Flere nyheder

Tilmeldingen til Sprogteknologisk Konference 2024 er åben!
17. september 2024

Kom og vær med, når Sprogteknologisk Konference bliver en afholdt d. 28. november på Københavns Universitet Amager (KUA). Det er i år fjerde gang i...
More

Bredt samarbejde skal hjælpe danske virksomheder og forskere med fri adgang til nogle af verdens største computere
12. september 2024

Digitaliseringsstyrelsen, Uddannelses- og Forskningsstyrelsen og universitetssamarbejdet DeiC opfordrer danske virksomheder, forskere og myndigheder til at bruge den massive compu-...
More

Mød sprogteknologi.dk på festivallen Vilde Teknologier
14. august 2024

Den 30. og 31. august 2024 kan du møde sprogteknologi.dk til festivallen Vilde Teknologier på Dokk1 i Aarhus! Sammen med Alexandra Instituttet parkerer vi et mobilt...
More

Invitation til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. juni 2024

Digitaliseringsstyrelsen inviterer til workshop om evaluering og benchmarking af sprogmodeller på dansk fredag d. 20. september 2024 fra 10:00-15:00, med mulighed for networking...
More

Første tekst-til-tale datasæt fra CoRal-projektet ude nu!
18. april 2024

Så er der godt nyt for de danske tekst-til-tale modeller! Det første datasæt fra CoRal-projektet med 48 timers tale med transskription, er for ganske nyligt blevet...
More