Skip to main content

Compilation of Danish-English parallel corpora resources used for training of NTEU Machine Translation engines

Dette tosproget korpora er bygget af en række forskellige korpusser fra udvalgte offentlige og private korpus og er blevet brugt til at træne NTEU (Neural Translation for the European Union) oversættelsesmaskiner. Læs mere om NTEU. Det indeholder hele 13,756,128 oversættelsespar mellem dansk og engelsk. I korpusset er størstedelen af de tosproget korpus, som findes i ELRC kataloget, som også er udgivet enkeltvis, indgået og der er blevet suppleret med et par andre korpora. Samlingsarbejdet er derfor allerede gjort for dig i denne.

Du kan få et overblik over de medtagne korpus i ReadMe filen som følger med korpusset.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/ 423b5f5ab40911eb9c1a00155d026706fee6591ed6204feb9466fdc7f15db5ec
Destinationsside https://elrc-share.eu/repository/browse/compilation-of-danish-english-parallel-corpora-resources-used-for-training-of-nteu-machine-translation-engines/423b5f5ab40911eb9c1a00155d026706fee6591ed6204feb9466fdc7f15db5ec/
Høstes af Datavejviser
Udgivelsesdato 12-05-2021
Seneste ændringsdato 12-05-2021
Opdateringsfrekvens ubekendt
Dækningsperiode  / 
Emne(r)
  • Regeringen og den offentlige sektor
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn
Dokumentation