Tilbage

Nye sprogmodeller kan nu tilgås via sprogteknologi.dk

10. december 2021

Nedenfor får du et overblik over nogle af de seneste tilføjelser:

Alvenir open-sourcer ny wac2vec-model

I sidste uge lancerede den nyopstartede virksomhed, Alvenir,som kan bruges til at udvikle taleteknologi med. Modellen er trænet på omtrent 1300 timers lyddata fra podcasts og lydbøger. Folkene bag Alvenir er langt fra ukendte inden for dansk sprogteknologi og taleteknologi. Det er nemlig den tidligere DanSpeech duo Martin Carsten Nielsen og Rasmus Arpe Fogh Egebæk, som har startet Alvenir.

Tilgå Alvenirs model

Analyse & Tal ude med model til at identificere anerkendelse

I sommers udstillede vi Analyse og Tals to modeller A&ttack og Ha&te, som kunne identificere had og sproglige angreb i tekst. Denne model blev udviklet i forbindelse med en større analyse af ”Angreb i den offentlige debat på Facebook". Nu har Analyse og Tal, i samarbejde med Trygheds Fonden, analyseret ”Anerkendelse i den offentlige debat på Facebook”. For at analysere de 63. mio indsamlede kommentarer fra diverse politikkeres og nyhedsmediers Facebooksider, har de udviklet modellen Rec&nition.

Tilgå Rec&nition modellen her

Dansk udgave af Electra og ConvBERT

Derudover har vi tilføjet en dansk ConvBERT og Electra model. ConvBERT er en videreudvikling af BERT modellen, som har mindsket træningsomkostninger og model parametre, uden at gå på kompromis med kvaliteten. Electramodellen er en anden udbredt træningsmetod, som også har reduceret behovet for computerkræft ved brug. Begge transformermodeller er præ-trænet af Phillip Tamimi Sarnikowski på omtrent 17,5 GB tekstdata. Modellerne er klar til at blive finjusteret til de opgaver, som de skal bruges til.

Tilgå ConvBERT modellen Tilgå Electra modellen

DaLUKE

To studerende ved Danmarks Tekniske Universitet har i forbindelse med deres bachelorprojekt udviklet en dansk udgave af. I den forbindelse har de udgivet en dansk LUKE model prætrænet på Dansk Wikipedia, som også er blevet finjusteret til Named Entity Recognition.

Tilgå DaLuke

Stadigvæk behov for udvikling af flere sprogdata

Som det kan ses, så begynder sprogmodeller og sprogteknologiske værktøjer at fylde mere og mere og det er en rigtig positiv udvikling. Det viser, at vi i Danmark har musklerne og hovederne til at løfte udviklingen af dansk sprogteknologi.

Der skal fortsat ydes en indsats for at dele og udvikle danske sprogressourcer, da datakvalitet og datakvantit er af afgørende betydning for, hvor gode de danske sprogmodeller kan blive. Data sætter mængden rammerne for, hvad dansk sprogteknologi kan lige nu og i fremtiden. Her handler det ikke nødvendigvis om at få et kæmpemæssigt datasæt stillet til rådighed. Det er omtrent ligeså vigtigt, at der stilles en række mindre forskellige typer af tekster, som må anvendes til sprogteknologiske formål.

Husk at tage fat i os, hvis du sidder inde med sprogdata, og du er i tvivl om, hvordan det skal udgives. Det kan fx være en række dokumenter, der indeholder en masse dansk tekst, som ikke bliver brugt. På den måde kan du skabe bedre vilkår for og bidrage til at udviklingen af dansk sprogteknologi holdes gang.

Flere nyheder

Det gik du glip af til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. november 2024

Evaluering og benchmarking af sprogmodeller er en forudsætning for dels at finde de bedst egnede løsninger til en given opgave, og dels for at målrette det videre...
More

Tilmeldingen til Sprogteknologisk Konference 2024 er åben!
17. september 2024

Kom og vær med, når Sprogteknologisk Konference bliver en afholdt d. 28. november på Københavns Universitet Amager (KUA). Det er i år fjerde gang i...
More

Bredt samarbejde skal hjælpe danske virksomheder og forskere med fri adgang til nogle af verdens største computere
12. september 2024

Digitaliseringsstyrelsen, Uddannelses- og Forskningsstyrelsen og universitetssamarbejdet DeiC opfordrer danske virksomheder, forskere og myndigheder til at bruge den massive compu-...
More

Mød sprogteknologi.dk på festivallen Vilde Teknologier
14. august 2024

Den 30. og 31. august 2024 kan du møde sprogteknologi.dk til festivallen Vilde Teknologier på Dokk1 i Aarhus! Sammen med Alexandra Instituttet parkerer vi et mobilt...
More

Invitation til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. juni 2024

Digitaliseringsstyrelsen inviterer til workshop om evaluering og benchmarking af sprogmodeller på dansk fredag d. 20. september 2024 fra 10:00-15:00, med mulighed for networking...
More