Datasæt

Scrape fra dokumentsamling på Vip Region Hovedstaden

Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og oplysningsdokumenter til sundhedsfagligt personale i Region Hovedstaden. Dokumenterne indeholder derfor en række fagbegreber og -termer som hyppigt forekommer inden for sundhedssektoren.

Korpusset indeholder 9.941.236 tokens (orddeling ved mellemrum) trukket fra 15.829 dokumenter og 8923 tabeller.

Korpusset er blevet skabt på baggrund af teksterne i dokumentsamlingen og er blevet efterbehandling, således at teksterne kan anvendes til udvikling af sprogteknologi.

Martin Sundahl Laursen og Thiusius R. Savarimuthu Syddansk Universitet har hjulpet Digitaliseringsstyrelsen med efterbehandlingen af data. Læs deres fælles papir vedr. Automatic Annotation of Training Data for Deep Learning Based De-identification of Narrative Clinical Text..

Der gøres opmærksom på, at korpusset er udviklet med henblik på udvikling af sprogteknologi og må ikke bruges som sundhedsfaglig informationskilde. Dokumenterne er scrapet på et specifikt tidspunkt og vil derfor ikke være ajourført med ændringer. Der henvises i den forbindelse til Region Hovedstadens dokumentsamling

Data og ressourcer

Hent korpusset i .txt formathttp://publications.europa.eu/resource/authority/file-type/TXT
Tilgå ressourcen her.
Udforsk
- Mere information
- Gå til ressource

Nøgleord

Yderligere info

URI	https://data.gov.dk/dataset/lang/1076892a-14ee-4f14-a9db-32efb03c40c9
Destinationsside	https://sprogteknologi-new.digst.govcloud.dk/dataset/scrape-fra-dokumentsamling-pa-vip-region-hovedstaden
Høstes af Datavejviser	Nej
Udgivelsesdato	30-01-2024
Seneste ændringsdato
Opdateringsfrekvens	aldrig
Dækningsperiode	/
Emne(r)	16.05.07 Sprog og retskrivning Sundhed Uddannelse, kultur og sport
Adgangsrettigheder	offentlig
Overholder
Proveniensudsagn
Dokumentation	https://sprogtek-ressources.digst.govcloud.dk/Sundhedskorpus/Dokumentation%20sundhedsfagligt%20tekstkorpus.pdf