Skip to main content

NST N-gram – dansk nyhendetekst

Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken. Aviserne er fra perioden 1995-1999. Korpuset blev oprindeligt udviklet af Nordic Language Technology (NST) i perioden 1997-2003. N-grammerne blev oprettet af Uni Research til det norske nationalbibliotek. Sekvenser på et til seks ord genereres (unigram, bigram, trigram, 4-gram, 5-gram og 6-gram) og sorteres derefter alfabetisk og efter frekvens. Der kan også downloades en forenklet version med de 1000 hyppigste n-grammer af alle ovennævnte typer.

Data og ressourcer

Nøgleord

Yderligere info

URI https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-28/
Destinationsside https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-28/#resource-common-info
Høstes af Datavejviser
Udgivelsesdato 11-06-2012
Seneste ændringsdato 11-06-2012
Opdateringsfrekvens aldrig
Dækningsperiode 01-01-1995  /  31-12-1999
Emne(r)
  • 16.05.07 Sprog og retskrivning
  • 16.05.07.05 Sprogudvikling
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn

Originalt udviklet af Nordisk Språkteknologi Norge 1990. Norges Nationalbiblitoek har overtaget ansvaret for ressourcen i forbindelse med at Nordisk Språkteknologik gik konkurs i 2003.

Dokumentation