Skip to main content

Danish Dependency Treebank (DaNE)

DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish Dependency Treebank (Buch-Kromann et al. 2003) based on texts from Parole (Britt, 1998). UD-DDT has annotations for dependency parsing and POS. The dataset was annotated with Named Entities for PER, ORG and LOC by the Alexandra Institute in the DaNE dataset (Hvingelby et al. 2020). To read more about how the dataset was annotated with POS and DEP tags we refer to the Universal Dependencies page. License: https://creativecommons.org/licenses/by-sa/4.0/

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/5ad636fe-fd77-468b-b351-d7cf2ed80d58
Destinationsside https://github.com/alexandrainst/danlp/blob/master/docs/docs/datasets.md
Høstes af Datavejviser
Udgivelsesdato 01-05-2020
Seneste ændringsdato 01-05-2020
Opdateringsfrekvens aldrig
Dækningsperiode  / 
Emne(r)
  • 12.30 Forskning
  • 16.05.07 Sprog og retskrivning
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn

A. CURATION RATIONALE: Formålet med DaNE (Hvingelby et al. 2020) datasættet er at skabe et lille datasæt annoteret med navne enhederne personer (PER), location (LOC) og organisationer (ORG), så det ud fra datasættet er muligt at lave en model der automatisk genkender disse navne enheder. Teksten i datasættet er fra Danish UD treebank (Johannsen et al., 2015, UD-DDT) som er en konversion af Danish Dependency Treebank (Buch-Kromann et al. 2003) baseret på tekst fra Parole (Britt, 1998). For flere information on selve tekstens oprindelse og karakter henvises til disse kilder. B. ANNOTATOR DEMOGRAPHIC: Datasættet er dobbelt annoteret, først af en lingvistisk og derefter af seks forskellige ikke-lingvister uden overlap. Efterfølgende er evt. konflikter løst. Alle annoterer har modersmål dansk og imellem 25-50 år. Guidelines for annoteringerne følger retningslinjerne i CoNLL-2003 NE annotation scheme (Tjong Kim Sang and De Meulder, 2003) for Lokationer (LOC), personer (PER) og organisationer (ORG). REFERENCER: Johannsen, Anders, Martínez Alonso, Héctor and Plank, Barbara. “Universal Dependencies for Danish”. TLT14, 2015. Keson, Britt (1998). Documentation of The Danish Morpho-syntactically Tagged PAROLE Corpus. Technical report, DSL Rasmus Hvingelby, Amalie B. Pauli, Maria Barrett, Christina Rosted, Lasse M. Lidegaard and Anders Søgaard. 2020. DaNE: A Named Entity Resource for Danish. In LREC. Tjong Kim Sang, E. F. and De Meulder, F. (2003). Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Lan.

Kildedatasæt: https://data.gov.dk/dataset/lang/a7947bf7-3579-48e5-91d7-b4417cdbd26f https://data.gov.dk/dataset/lang/1d755e32-2686-43ee-9a38-eef87bb63749

Dokumentation