Privatperson - Udgivere - sprogteknologi.dk

DaAnonymization

DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet...

HTML

Context-Aware-Splitter

Context-aware-splitter er en model til retrieval augmented generation. Modellen er udviklet til at opdele tekster på den mest optimale måde givet en kontekst. Opdeling af...

Binary Data

Ordia

Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en...

HTML

Context-Aware-Splits

Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...

Binary Data

DanskGPT-Tiny

DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA. Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst....

Binary Data

DaCy

DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser...

HTML