Begrebsliste
Begreber relevante ifm. sprogteknologi.dk
Metadata for "Begrebsliste: Begreber relevante ifm. sprogteknologi.dk"
- Namespace: https.//data.gov.dk/concept/profile/sprogteknologi-dk
- Modelnavn (label): Begreber relevante ifm. sprogteknologi.dk
- Modelansvarlig (responsibleEnity): Digitaliseringsstyrelsen
- Versionsnummer (versionInfo): 1.0.0
- Seneste opdateringsdato (dateModified) 2024-10-16
- Modelomfang (modelScope): application
- Modelstatus (modelStatus): stable
- Godkendelsesstatus (approvalStatus): N/A
- Forretningsområde (theme): https://form-online.dk/opgavenoegle/16/#16.05.07
- Kommentar (comment): Begrebsmodel der indholder centrale begreber i forhold til portalen sprogteknologi.dk, som har personer med interesse for og nogen kendskab til sprogteknologi, men som ikke er fageksperter, som målgruppe
NB: Begrebslisten er oprettet i henhold til FDAs "Vejledning til modellering". En del af modelleringsmetoden går ud på at genbruge eksisterende begreber og angive referencer til kilder, hvor definitionen er hentet eller udledt fra. Modelreglerne anviser også, hvorledes definitioner stuktureres i overensstemmelse med gældende standarder og best practices på området, herunder ISO 704, ISO 1087 og Terminologi 1 - principper og metoder af Bodil Nistrup Madsen.
Foretrukken dansk term |
Accepteret dansk term |
Definition | Kommentarer og eksempler | Kilde | Foretrukken engelsk term |
---|---|---|---|---|---|
akustisk model | statistisk model over hyppigheder af sproglyde og deres sammensætninger på et givet sprog | En akustisk model bruges i taleteknologi til at repræsentere forholdet mellem lydsignaler og fonemer eller andre sproglige enheder, der udgør tale. | Reference | acoustic model | |
algoritme | endelig liste af veldefinerede instruktioner for hvordan en given opgave skal løses | Et computerprogram udgøres fx af forbundne algoritmer beskrevet i programmeringssprog. | Reference | algorithm | |
annotation | opmærkning; annotering | at forsyne ord og andre sprogelementer med metadata | Fx oplysninger om ordklasse eller udtale | Reference | annotation |
annoterede sprogdata | sprogdata der er forsynet med metadata på tekstniveau samt på ordniveau | Fx grammatisk opmærkning på ordniveau | Reference | annotated language data | |
begrebsmodel | model der beskriver begreber inden for et bestemt emneområde eller anvendelseskontekst og disse begrebers indbyrdes relationer | Reference | concept model | ||
BLARK | grundlæggende sprogressource-samling | samling af grundlæggende sprogressourcer der er nødvendige for at udvikle sprogteknologi for et givet sprog | Reference | basic language resource kit | |
data statement | metadata om et datasæts oprindelse, der har til formål at synliggøre bias i datasættet | Der er bl.a. tale om demografiske oplysninger om bidragsydere og dataindsamlere og om hvordan, datasættet er indsamlet. | Reference | data statement | |
datasæt | datasamling | samling af data, udgivet eller kurateret af en enkelt kilde og som er til råde for adgang til eller download af i en eller flere repræsentationer | Kurateret dækker her over udvælgelse og organisering. | Reference | dataset |
digital assistent | virtuel personlig assistent | it-løsning som kan assistere og interagere med mennesker på en menneskelig måde | Fx chatbot | Reference | digital assistant |
dyb læring | dyblæring | maskinlæringsalgorithmer som har flere forskellige lag, som analyserer forskellige dele af inputs og involverer usuperviserede eller superviserede læringsmetoder. | Fx neurale netværk | Reference | deep learning |
emneklassifikation | opdeling af en given genstandsmængde i klasser ud fra deres emnemæssige tilhørsforhold. | Emnebaseret kategorisering af ressourcer, fx klassificering af borger/kunde-henvendelser ift. hvilken afdeling der skal håndtere dem, inddeling af ressourcer ift. videnskabelig disciplin eller opmærkning af sager med typeinformation. | Reference | subject classification | |
finjustering | videre træning af en prætrænet sprogmodel til specifik brug | Fx træning på domæne specifikke data, så modellen opnår bedre performance inden for det domæne | Reference | finetuning | |
fonem | sproglyd med betydningsadskillende funktion | Alfabetet bygger i princippet på fonemer således, at hvert bogstav i princippet skulle repræsentere et fonem. Der er dog mange afvigelser fra det princip, fx udtrykkes a med forskellige fonemer i har og hat. | Reference | phoneme | |
fonetik | læren om sprogets lydlige side | Reference | phonetics | ||
generativ kunstig intelligens | programmer, der udnytter store datamængder sammen med maskinlæringsteknikker til at producere indhold, baseret på input fra brugerne kaldet prompts | ChatGPT er en generativ kunstig intelligens, hvor brugeren af værktøjet kan få værktøjet til at udføre forskellige opgaver vi prompts. | Reference | generative AI | |
glosar | ordbog der indeholder betegnelser fra et eller flere domæner eller emneområder sammen med oversættelser til et eller flere sprog | Reference | glossary | ||
grundmodel | fundamentsmodel; basismodel, | sprogmodel der besidder generel sprogforståelse som ikke er finjusteret til et specifikt formål | Reference | foundation model | |
ikke-superviseret læring | overfladeorienteret læring | maskinlæring som opnås gennem træning på rådata | Står i modsætning til dyb læring (supervised learning) | Reference | unsupervised learning |
knowledge graph | vidensgraf | struktureret vidensrepræsentation i form a en graf over entiteter og relationer mellem dem | Grafen kan reprænseteres textuelt som tripler bestående af enititet, relation, entitet eller visuelt som noder og forbindelser i et netværk | Reference | knowledge graph |
korpus | samling af tekst eller tale | The META-SHARE Metadata Schema | corpus | ||
kunstig intelligens | AI; KI | computerprogrammer og maskiner, som efterligner et eller flere aspekter af den menneskelige intelligens. | Det gælder evnen til abstrakt tænkning, analyse, problemløsning, mønstergenkendelse, sprogbeherskelse og -forståelse, fornuftig handling og lignende. Computerprogrammer der spiller skak, planlægger ruter eller laver talegenkendelse er eksempler herpå. | Reference | artificial intelligence |
leksikalsk ressource | sprogressource som repræsenterer leksikalsk eller begrebsmæssig viden | Fx ordbøger eller termdatabaser | The META-SHARE Metadata Schema | lexical resource | |
LLM | stor sprogmodel | sprogmodel med højt antal parametre og trænet på et stort træningsdatasæt | Højt antal parametre skal ses relativt ift. den teknologiske udvikling | Reference | large language model |
maskinlæring | proces der bruger algoritmer, der muliggør læring fra eksisterende data for at forudsige fremtidige resultater | Reference | machine learning | ||
maskinoversættelse | oversættelse fra et sprog til et andet foretaget af en computer | Reference | machine translation | ||
monolingval | som vedrører, er skrevet på eller foregår på ét sprog | Reference | monolingual | ||
multimodal model | model med inbygget kapabilitet til at processere data i mindst to modaliteter | Fx Dall-E modellen, som kan genere billeder på baggrund af prompts skrevet i naturligt sprog. Almindelige modaliteter er fx tekst, billede, lyd, video | Reference | multimodal model | |
natursprog | naturligt sprog | naturligt opstået sprog der anvendes af mennesker til at kommunikere med hinanden | Fx dansk, tegnsprog | Reference | natural language |
natursprogsbehandling | NLP | automatisk datalogisk behandling af naturligt sprog | Towards Datascience: Natural Language Processing - NLP - for Machine Learning | natural language processing | |
navnegenkendelse | entitetsgenkendelse; NER | identifikation og klassifikation af entiteter i løbende tekst på baggrund af predefinerede kategorier | Kan fx være navne, steder, lovgivning, handlinger, sygdomme, medicin eller deslignende | Reference | named entity recognition |
nøgleordsanalyse | keywordanalyse | identifikation af de væsentligste indholdsord i en tekst ved statistisk analyse | Reference | keyword detection | |
ontologi | formel beskrivelse af begreber og sammenhænge inden for et bestemt område | Reference | ontology | ||
ordbog | leksikalsk opslagsværk der indeholder oplysninger om ord og deres sproglige form og indhold, fx stavning, ordklasse, bøjning, udtale, betydning, brug, synonymer og historie i et sprog eller om ordenes oversættelse til et andet sprog | Reference | dictionary | ||
oversættelseshukommelse | database hvor sætninger og deres oversættelse er lagret parvis | Reference | translation memory | ||
parallelkorpus | korpus bestående af tekster på et sprog som sammenkobles med oversættelser til et andet sprog | Reference | parallel corpus | ||
prætræning | ikke-superviseret træning af en grundmodel på uannoterede sprogdata så den opnår generel sprogforståelse, med henblik på at finjustere den videre | Reference | pretraining | ||
RAG | retrieval augmented generation | metode til generativ kunstig intelligens, hvor en sprogmodel gør brug af en vidensdatabase uden for træningsdatasættet, som sprogmodellen skal referere fra | Reference | retrieval augmented generation | |
referencekorpus | korpus der udgør en antaget repræsentativ stikprøve af sproget | Reference | reference corpus | ||
semantisk søgning | søgning der forsøger at finde resultatet baseret på betydningen af forespørgslen fremfor at matche en eksakt søgestreng | Reference | semantic search | ||
spontantale | tale der ikke er planlagt eller nedskrevet på forhånd | Reference | spontaneous speech | ||
sprogdata | data bestående af lagret tekst eller tale | Fx avisartikler, sms'er, manualer, optagelser af samtaler, oplæste tekster | Reference | language data | |
sprogforståelse | uddragelse af betydning fra tekst eller tale i naturligt sprog | Reference | natural language understanding | ||
sprogmodel | statistisk model over ord og ordsammensætningers hyppigheder på et givet sprog | Sprogmodel er et bredt begreb som dækker de mange forskellige typer af sprogmodeller, hvad enten der er store, små, grundmodel, talemodel osv. | Reference | language model | |
sprogressource | ressource som kan anvendes til at løse en sprogrelateret opgave | Dette er et bredt begreb der dækker alt fra ordbørger og grammatikker til sprogdatasæt og korpora til sprogmodeller og suppertværktøjer m.m. Alt hvad der katalogiseres på sprogteknolgi.dk er fx sprogressourcer. | Reference | language resource | |
sprogteknologi | teknologi der anvendes til at få computere til at bearbejde tekster eller udsagn på almindeligt, menneskeligt sprog | Dvs. teknologier, der kan analysere, genkende eller producere naturligt sprog. | Reference | language technology | |
sprogteknologisk infrastrukturkomponent | sprogressource i form af en genbrugelig komponent med et bestemt sprogteknologisk anvendelsesformål | Reference | language technology infrastructure component | ||
sprogteknologisk softwareløsning | sprogressource i form af en endelig sprogløsning der er målrettet slutbrugeren | Fx en talegenkender eller en chatrobot | Reference | language software solution | |
sprogteknologisk supportværktøj | værktøj, der understøtter indsamling og forarbejdning af sprogdata | Fx anonymisering, opmærkning eller analyse af indsamlet data | Reference | language support tool | |
sentimentanalyse | stemningsanalyse | analyse af det emotionelle indhold i tekst og tale | Reference | sentiment analysis | |
tale-til-tekst-løsning | talegenkendelses-løsning | løsning som er i stand til at registrere menneskelig tale og genkende de sagte ord | Reference | speech-to-text service | |
talegenkendelse | automatisk genkendelse og omsætning til maskin-læsbar skrift af sproglyde i sammenhængende tale | Man konverterer typisk tale til skreven tekst. | Reference | speech recognition | |
talesyntese | frembringelse af kunstig tale vha. elektronisk og elektro-akustisk teknik | Man konverterer typisk skreven tekst til tale. | Reference | speech synthesis | |
taleteknologi | computerteknologi der anvendes til talegenkendelse og/eller talesyntese | Reference | speech technology | ||
tekst-til-tale-løsning | talesynteseløsning | løsning som sætter en computer i stand til at efterligne et talende menneske | Reference | text-to-speech service | |
tekstanalyse | analyse af tekst med henblik på at forstå dennes indhold | Formålet kan fx være at emneklassificere teksten, udtrække et resumé eller stemningsanalyse. | Reference | text analysis | |
tekstforslag | tekstforudsigelse | funktion hvor et system giver forslag til, hvilket ord eller tekststykke brugeren ønsker at skrive | Anvendes fx i tastaturprogrammer til mobiltelefoner og i oversættelseshukommelser. | Reference | predictive text |
tekstresumering | tekstsammenfatning | processen hvorved der skabes en kort oversigt over hovedtræk i fx en sag, noget sagt eller noget skrevet | Reference | text summarization | |
term | fagudtryk | ord eller udtryk med en fastlagt teknisk definition, brugt som betegnelse for et fagligt begreb | Reference | term | |
termbase | termbank | database over fagord og deres betydning og anvendelse | Reference | term base | |
termekstraktion | termudtræk | identifikation og ekstraktion af termer fra løbende tekst | Reference | term extraction | |
token | mindre tekstenhed bstående af en sekvens af tegn der udgør en semantisk enhed | Tokens er oftest (i hvert fald på dansk eller engelsk) det samme som ord, men det kan variere ift, hvilke betydningsenheder man ønsker at arbejde med | Reference | token | |
tokeniser | tokeniseringsprogram; ordidentifikation | program der forbereder en tekst til videre behandling ved at identificere tegnsekvenser som tokens | Tokens er ofte ord, men det afhænger af hvad der er behov for i den videre behandling | Reference | tokenizer |
transskription | tekstuel gengivelse af udtalte ord eller sammenhængende tale | Transskription kan i andre sammenhænge også bruges generelt om overførsel fra ét tegnsystem til et andet. | Reference | transcription | |
vidensmodellering | videnmodellering | udvikling af begrebsmodeller for et bestemt fagområde | Reference | knowlegde modeling |