Dette tosproget korpora er bygget af en række forskellige korpusser fra udvalgte offentlige og private korpus og er blevet brugt til at træne NTEU (Neural Translation for the European Union) oversættelsesmaskiner. Læs mere om NTEU. Det indeholder hele 13,756,128 oversættelsespar mellem dansk og engelsk. I korpusset er størstedelen af de tosproget korpus, som findes i ELRC kataloget, som også er udgivet enkeltvis, indgået og der er blevet suppleret med et par andre korpora. Samlingsarbejdet er derfor allerede gjort for dig i denne.
Du kan få et overblik over de medtagne korpus i ReadMe filen som følger med korpusset.