Anbefalede standarder for sprogressourcer
Introduktion
For sprogdata og andre sprogressourcer er det vigtigt med åbne, simple, sammenlignelige og veldokumenterede formater. Det er vigtigt, at der anvendes ens formater, fordi arbejdet med data bliver lettere og gør data mere genanvendeligt.
Med udgangspunkt i input fra Dansk Sprognævn og Center for Sprogteknologi, har Digitaliseringsstyrelsen udarbejdet disse anbefalinger vedrørende lyd/tale, video, tekst, leksikalske ressourcer samt generelle anbefalinger for sprogdata. Derudover henvises der også til en række øvrige identificerede annoteringsmuligheder. Relevante interessenter - herunder følgegruppen for sprogteknologi.dk – er blevet inddraget i processen blandt andet via sprogteknologi.dks LinkedIn-side og har fået mulighed for at kommentere på anbefalingerne.
Teknologi udvikler sig og formater kan derfor også skifte over tid. Redaktionen for sprogteknologi.dk vil løbende vedligeholde og opdatere anbefalingerne efter behov.
Til sprogdata anbefales generelt
Generelle anbefalinger:
- Åbne formater frem for proprietære formater.
- Tekstnære formater (plain text) frem for formater med binære data.
Til intern strukturering af sprogdata anbefales generelt:
- Simple mappestrukturer.
- Meningsbærende filnavne der er uafhængige af mappestrukturer.
Til intern dokumentation/metadata af sprogdata anbefales generelt:
- Angivelse af ID, udgivelse, sted, indsamlet/bygget for hvert dokument: JSON.
- Angivelse af sprog:
- Metashare-standard til udvidet dokumentation.
- Data Statements for NLP til at synliggøre bias.
Anbefalinger til lyd-/taledata
Anbefalede formater:
- Uanset format bør sample-rate altid vælges blandt:
- Lydoptagelse bør altid være i.wav (evt. gemmes i .flac).
Anbefalede sample-rates:
- 8kHz/16kHz/20k/22.050kHz/44.1kHz/48kHz.
- Bit-rates = 16/24.
Organisering af lydfiler:
- Lydfiler tilhørende transskriptioner bør være opdelt på samme måde, således at indholdet af en lydfil svarer til indholdet af en transskriptionsfil, og disse to filer bør nemt kunne relateres, fx via navngivningen.
- Opdel gerne lyd og transskription på sætningsniveau.
Anbefalinger til videodata
Generelt:
- MJPEG-2000 lossless som backendformat ISO/IEC 15444-3:2002 Information technology -- JPEG 2000 image coding system Part 3: Motion JPEG 2000.
- MPEG-2 standarder udgivs som dele af ISO/IEC 13818-1:2019 (Information technology -- Generic coding of moving pictures and associated audio informaiton):
Anbefalinger til tekst
Anbefalede tekstformater (til simple ikke-formaterede tekstdokumenter):
- .txt
Anbefalede tekstformater (til måledata, annotationsdata m.m., fx vektordata, statistiske data, tidskode, osv.):
- .csv
- JSON
- JSONL - særligt anvendelig til store tekstmængder, da data kan streames ind i én linje ad gangen.
Kodning:
- Foretrukken:
- Andre:
Anbefalinger til leksikalske ressourcer
Anbefalinger vedrørende maskinlæsbare leksika eller termbaser:
- Language resource management — Lexical markup framework (LMF), ISO 24613-1:2024.
- TermBaseExchange format (TBX), ISO 30042:2019.
Anbefalinger vedrørende knowledge engineering:
- Resource Description Framework (RDF).
- RDF Schema 1.1 (RDF-s).
- Ontology Web Language (OWL).
- Simple Knowledge Organization System (SKOS).
Øvrige identificerede annoteringsmuligheder
Korpus annotering:
Syntaktisk annotering:
- ISO/DIS 24611 Morpho-syntactic Annotation Framework (MAF).
- ISO/CD 24615:2010 Syntactic Annotation Framework (SynAF).
Semantisk annotering:
Dialog annotering:
Multimodal annotering (gestus i multimodal kommunikation):
Følelses annotering (herunder sentiment annotering):
Bemærk, at de forskellige Clarin K-centre også anbefaler standarder for deres respektive ekspertiseområder. Du finder relevant information på CLARIN's website.