Danish Dependency Treebank (DaNE)
Data og ressourcer
-
Danish Dependency Treebank (DaNE) - CoNLL-Uhttp://publications.europa.eu/resource/authority/file-type/HTML
Tilgå download download af Danish Dependency Treebank (DaNE) i CoNLL-U format.
Nøgleord
Yderligere info
URI | https://data.gov.dk/dataset/lang/5ad636fe-fd77-468b-b351-d7cf2ed80d58 |
---|---|
Destinationsside | https://github.com/alexandrainst/danlp/blob/master/docs/docs/datasets.md |
Høstes af Datavejviser | |
Udgivelsesdato | 01-05-2020 |
Seneste ændringsdato | 01-05-2020 |
Opdateringsfrekvens | aldrig |
Dækningsperiode | / |
Emne(r) |
|
Adgangsrettigheder | offentlig |
Overholder | |
Proveniensudsagn | A. CURATION RATIONALE: Formålet med DaNE (Hvingelby et al. 2020) datasættet er at skabe et lille datasæt annoteret med navne enhederne personer (PER), location (LOC) og organisationer (ORG), så det ud fra datasættet er muligt at lave en model der automatisk genkender disse navne enheder. Teksten i datasættet er fra Danish UD treebank (Johannsen et al., 2015, UD-DDT) som er en konversion af Danish Dependency Treebank (Buch-Kromann et al. 2003) baseret på tekst fra Parole (Britt, 1998). For flere information on selve tekstens oprindelse og karakter henvises til disse kilder. B. ANNOTATOR DEMOGRAPHIC: Datasættet er dobbelt annoteret, først af en lingvistisk og derefter af seks forskellige ikke-lingvister uden overlap. Efterfølgende er evt. konflikter løst. Alle annoterer har modersmål dansk og imellem 25-50 år. Guidelines for annoteringerne følger retningslinjerne i CoNLL-2003 NE annotation scheme (Tjong Kim Sang and De Meulder, 2003) for Lokationer (LOC), personer (PER) og organisationer (ORG). REFERENCER: Johannsen, Anders, Martínez Alonso, Héctor and Plank, Barbara. “Universal Dependencies for Danish”. TLT14, 2015. Keson, Britt (1998). Documentation of The Danish Morpho-syntactically Tagged PAROLE Corpus. Technical report, DSL Rasmus Hvingelby, Amalie B. Pauli, Maria Barrett, Christina Rosted, Lasse M. Lidegaard and Anders Søgaard. 2020. DaNE: A Named Entity Resource for Danish. In LREC. Tjong Kim Sang, E. F. and De Meulder, F. (2003). Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Lan. Kildedatasæt: https://data.gov.dk/dataset/lang/a7947bf7-3579-48e5-91d7-b4417cdbd26f https://data.gov.dk/dataset/lang/1d755e32-2686-43ee-9a38-eef87bb63749 |
Dokumentation |