Skip to main content

Scrape fra dokumentsamling på Vip Region Hovedstaden

Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og oplysningsdokumenter til sundhedsfagligt personale i Region Hovedstaden. Dokumenterne indeholder derfor en række fagbegreber og -termer som hyppigt forekommer inden for sundhedssektoren.

Korpusset indeholder 9.941.236 tokens (orddeling ved mellemrum) trukket fra 15.829 dokumenter og 8923 tabeller.

Korpusset er blevet skabt på baggrund af teksterne i dokumentsamlingen og er blevet efterbehandling, således at teksterne kan anvendes til udvikling af sprogteknologi.

Martin Sundahl Laursen og Thiusius R. Savarimuthu Syddansk Universitet har hjulpet Digitaliseringsstyrelsen med efterbehandlingen af data. Læs deres fælles papir vedr. Automatic Annotation of Training Data for Deep Learning Based De-identification of Narrative Clinical Text..

Der gøres opmærksom på, at korpusset er udviklet med henblik på udvikling af sprogteknologi og må ikke bruges som sundhedsfaglig informationskilde. Dokumenterne er scrapet på et specifikt tidspunkt og vil derfor ikke være ajourført med ændringer. Der henvises i den forbindelse til Region Hovedstadens dokumentsamling

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/1076892a-14ee-4f14-a9db-32efb03c40c9
Destinationsside https://sprogteknologi-new.digst.govcloud.dk/dataset/scrape-fra-dokumentsamling-pa-vip-region-hovedstaden
Høstes af Datavejviser Nej
Udgivelsesdato 30-01-2024
Seneste ændringsdato
Opdateringsfrekvens aldrig
Dækningsperiode  / 
Emne(r)
  • 16.05.07 Sprog og retskrivning
  • Sundhed
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn
Dokumentation