Skip to main content

Anbefalede standarder for sprogressourcer

Introduktion

For sprogdata og andre sprogressourcer er det vigtigt med åbne, simple, sammenlignelige og veldokumenterede formater. Det er vigtigt, at der anvendes ens formater, fordi arbejdet med data bliver lettere og gør data mere genanvendeligt.

Med udgangspunkt i input fra Dansk Sprognævn og Center for Sprogteknologi, har Digitaliseringsstyrelsen udarbejdet disse anbefalinger vedrørende lyd/tale, video, tekst, leksikalske ressourcer samt generelle anbefalinger for sprogdata. Derudover henvises der også til en række øvrige identificerede annoteringsmuligheder. Relevante interessenter - herunder følgegruppen for sprogteknologi.dk – er blevet inddraget i processen blandt andet via sprogteknologi.dks LinkedIn-side og har fået mulighed for at kommentere på anbefalingerne.

Teknologi udvikler sig og formater kan derfor også skifte over tid. Redaktionen for sprogteknologi.dk vil løbende vedligeholde og opdatere anbefalingerne efter behov.

 

Til sprogdata anbefales generelt

Generelle anbefalinger:

  • Åbne formater frem for proprietære formater.
  • Tekstnære formater (plain text) frem for formater med binære data.

Til intern strukturering af sprogdata anbefales generelt:

  • Simple mappestrukturer.
  • Meningsbærende filnavne der er uafhængige af mappestrukturer.

Til intern dokumentation/metadata af sprogdata anbefales generelt:

 

Anbefalinger til lyd-/taledata

Anbefalede formater:

Anbefalede sample-rates:

  • 8kHz/16kHz/20k/22.050kHz/44.1kHz/48kHz.
  • Bit-rates = 16/24.

Organisering af lydfiler:

  • Lydfiler tilhørende transskriptioner bør være opdelt på samme måde, således at indholdet af en lydfil svarer til indholdet af en transskriptionsfil, og disse to filer bør nemt kunne relateres, fx via navngivningen.
  • Opdel gerne lyd og transskription på sætningsniveau.

 

Anbefalinger til videodata

Generelt:

 

Anbefalinger til tekst

Anbefalede tekstformater (til simple ikke-formaterede tekstdokumenter):

  • .txt

Anbefalede tekstformater (til måledata, annotationsdata m.m., fx vektordata, statistiske data, tidskode, osv.):

  • .csv
  • JSON
  • JSONL - særligt anvendelig til store tekstmængder, da data kan streames ind i én linje ad gangen.

Kodning:

 

Anbefalinger til leksikalske ressourcer

Anbefalinger vedrørende maskinlæsbare leksika eller termbaser:

Anbefalinger vedrørende knowledge engineering:

 

Øvrige identificerede annoteringsmuligheder

Korpus annotering:

Syntaktisk annotering:

Semantisk annotering:

Dialog annotering:

Multimodal annotering (gestus i multimodal kommunikation):

Følelses annotering (herunder sentiment annotering):

Bemærk, at de forskellige Clarin K-centre også anbefaler standarder for deres respektive ekspertiseområder. Du finder relevant information på CLARIN's website.