Datasæt - sprogteknologi.dk

DanPASS udtaleordbogen

Udtaleordbog baseret på transskriptionerne i DanPASS-korpusset. Listen indeholder 67.285 transskriptioner af 2.232 fonologiske ord. Listen viser ortografisk ord,...
- HTML
FT-Speech

FT Speech er et dansk korpus med folketingets taler i lydformat og manuelt transskriberet tekst. Datasættet er blevet kureret af Andreas Kirkedal, Marija Stepanović og Barbara...
- HTML
DanPASS-korpus (Danish Phonetically Annotated Spontaneous Speech)

The DanPASS corpus was developed for research and applied research purposes. It consists of of non-scripted monologues and dialogues, recorded by 27 speakers, comprising a total...
- ZIP
Bornholmsk (NLP tools / data for Bornholmsk)

Language processing resources and tools for Bornholmsk, a language spoken on the island of Bornholm, with roots in Danish and closely related to Scanian. Includes corpora, word...
- ZIP
Alvenir Wav2vec2

En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal...
- HTML
Alvenir ASR evalueringsdata

Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år....
- HTML

Du kan også tilgå dette register med API (se API-dokumenter).

6 datasæt fundet