Tilbage

Danish Gigaword Project - et historisk stort dansk tekstkorpus

7. juni 2021

Dekorativt indhold.

Danish Gigaword Project har i næsten 2 år knoklet med at udarbejde et stort dansk tekstkorpus. Nu er korpusset endelig udgivet, og det giver god grund til begejstring for de danske sprogteknologiske miljøer. Gigaword er nemlig, med over én milliard danske ord, et korpus af historisk stor størrelse.

En velkendt udfordring er, at fordi der er færre, som taler dansk på verdensplan, så er mængden af danske sprogdata relativt begrænset i forhold til større sprog. Det skaber problemer for udviklingen af dansk sprogteknologi, da computere skal bruge meget store mængder data for at tillære sig et sprog. I værste tilfælde kan det betyde, at fremtidige applikationer og ny teknologi ikke kan fungere i en dansk kontekst. Det er derfor vigtigt, at der kontinuerligt indsamles og udvikles danske sprogdata.

Projekter såsom Gigaword er i den forbindelse et væsentligt skridt i den rigtige retning, da det netop stiller et massivt dansk datasæt til rådighed. Nogle vil måske tænke, at der allerede findes en masse dansk tekst på internettet, som man ”bare” kunne tage af. Dog er der i brugen af disse tekster oftest en række juridiske restriktioner og faglige udfordringer, som kan give anledning til en del hovedpine. Specielt, hvis du skal arbejde med tekster med mange forskellige ophav.

Gigaword har samlet tekstmateriale fra en lang række forskellige kilder. Blandt andet er der materiale fra TV2 Regionerne, DanAvis, Folketinget, Retsinformation.dk, OpenSubtitles, og diverse sociale medier. De mange forskellige kilder betyder, at korpusset repræsenterer en bred række af ord og sætningskonstruktioner, hvilket forbedrer repræsentationen af dansk i korpusset. Hertil har projektet arbejdet med forskellige instrumenter for at overholde lovgivningen. Fx er der taget højde for GDPR ved, at man har sikret, at ytringer samlet fra de sociale medier ikke kan henføres til et enkelt individ. Gigaword har altså samlet data og sørget for, at datasættet lever op til juridiske forbehold. Anvenderen skal blot hente datasættet og gøre brug af det og kan gøre det med god samvittighed, da datasættet udgives med en Attribution 4.0 International (CC BY 4.0) -licens

Det er Leon Derczynski, der er lektor på IT-Universitetet og Manuel R. Ciosici fra University of Southern California, som har været tovholder på projektet. De har samlet hjælp fra en række private og offentlige organisationer og på den måde fået skabt et solidt bidrag til udviklingen af dansk sprogteknologi. Du kan læse mere om de medvirkende i den medfølgende artikel, som er udgivet i forbindelse med Gigaword-projektet. Du kan finde artiklen, samt læse mere om projektet på gigaword.dk.

Du kan også tilgå korpusset gennem sprogteknologi.dk her.

Flere nyheder

Det gik du glip af til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. november 2024

Evaluering og benchmarking af sprogmodeller er en forudsætning for dels at finde de bedst egnede løsninger til en given opgave, og dels for at målrette det videre...
More

Tilmeldingen til Sprogteknologisk Konference 2024 er åben!
17. september 2024

Kom og vær med, når Sprogteknologisk Konference bliver en afholdt d. 28. november på Københavns Universitet Amager (KUA). Det er i år fjerde gang i...
More

Bredt samarbejde skal hjælpe danske virksomheder og forskere med fri adgang til nogle af verdens største computere
12. september 2024

Digitaliseringsstyrelsen, Uddannelses- og Forskningsstyrelsen og universitetssamarbejdet DeiC opfordrer danske virksomheder, forskere og myndigheder til at bruge den massive compu-...
More

Mød sprogteknologi.dk på festivallen Vilde Teknologier
14. august 2024

Den 30. og 31. august 2024 kan du møde sprogteknologi.dk til festivallen Vilde Teknologier på Dokk1 i Aarhus! Sammen med Alexandra Instituttet parkerer vi et mobilt...
More

Invitation til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. juni 2024

Digitaliseringsstyrelsen inviterer til workshop om evaluering og benchmarking af sprogmodeller på dansk fredag d. 20. september 2024 fra 10:00-15:00, med mulighed for networking...
More