Datasæt - sprogteknologi.dk

DaAnonymization

DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet...
- HTML
DaLUKE

DaLUKE er udviklet i forbindelse med et bachelorprojekt i Kunstig Intelligens og Data ved Danmarks Tekniske Universitet. DaLUKE er en dansk version af LUKE, som er en...
- HTML
DaCy

DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser...
- HTML
Dansk ELECTRA

ELECTRA model prætrænet på dansk, på 17,5 GB data. Du kan læse mere om ELECTRA træningsmetoden i denne forskningsartikel: ELECTRA: Pre-training Text Encoders as Discriminators...
- HTML
Alvenir Wav2vec2

En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal...
- HTML
Alvenir punctuation restoration

Et nemt og tilgængeligt værktøj, som automatisk sætter punktum og komma i fritekst. Værktøjet understøtter både dansk, engelsk og tysk. Værktøjet er udviklet af Alvenir.
- HTML

Du kan også tilgå dette register med API (se API-dokumenter).

6 datasæt fundet