Skip to main content

The Norwegian Colossal Corpus

"The Norwegian Colossal Corpus (NCC) is a collection of multiple smaller Norwegian corpuses suitable for training large language models. We have done extensive cleaning on the datasets, and have made them available in a common format. The total size of the NCC is currently 45GB."

Bemærk, at NCC består af en samling af forskellige dataset, som er udgivet med forskellige licensbetingelser. Via dokumentationen for NCC kan du hurtigt få en oversigt over de forskellige licenser for de enkelte data.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/d447b3e1-1a1d-4f73-b132-44f7f95cb9ba
Destinationsside https://huggingface.co/datasets/NbAiLab/NCC
Høstes af Datavejviser
Udgivelsesdato 04-05-2022
Seneste ændringsdato 27-05-2024
Opdateringsfrekvens ubekendt
Dækningsperiode  / 
Emne(r)
  • 16.05.07 Sprog og retskrivning
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn
Dokumentation