Begrebsliste

Begreber relevante ifm. sprogteknologi.dk

Metadata for "Begrebsliste: Begreber relevante ifm. sprogteknologi.dk"

Namespace: https.//data.gov.dk/concept/profile/sprogteknologi-dk
Modelnavn (label): Begreber relevante ifm. sprogteknologi.dk
Modelansvarlig (responsibleEnity): Digitaliseringsstyrelsen
Versionsnummer (versionInfo): 1.0.0
Seneste opdateringsdato (dateModified) 2024-10-16
Modelomfang (modelScope): application
Modelstatus (modelStatus): stable
Godkendelsesstatus (approvalStatus): N/A
Forretningsområde (theme): https://form-online.dk/opgavenoegle/16/#16.05.07
Kommentar (comment): Begrebsmodel der indholder centrale begreber i forhold til portalen sprogteknologi.dk, som har personer med interesse for og nogen kendskab til sprogteknologi, men som ikke er fageksperter, som målgruppe

NB: Begrebslisten er oprettet i henhold til FDAs "Vejledning til modellering". En del af modelleringsmetoden går ud på at genbruge eksisterende begreber og angive referencer til kilder, hvor definitionen er hentet eller udledt fra. Modelreglerne anviser også, hvorledes definitioner stuktureres i overensstemmelse med gældende standarder og best practices på området, herunder ISO 704, ISO 1087 og Terminologi 1 - principper og metoder af Bodil Nistrup Madsen.

Foretrukken dansk term	Accepteret dansk term	Definition	Kommentarer og eksempler	Kilde	Foretrukken engelsk term
akustisk model		statistisk model over hyppigheder af sproglyde og deres sammensætninger på et givet sprog	En akustisk model bruges i taleteknologi til at repræsentere forholdet mellem lydsignaler og fonemer eller andre sproglige enheder, der udgør tale.	Reference	acoustic model
algoritme		endelig liste af veldefinerede instruktioner for hvordan en given opgave skal løses	Et computerprogram udgøres fx af forbundne algoritmer beskrevet i programmeringssprog.	Reference	algorithm
annotation	opmærkning; annotering	at forsyne ord og andre sprogelementer med metadata	Fx oplysninger om ordklasse eller udtale	Reference	annotation
annoterede sprogdata		sprogdata der er forsynet med metadata på tekstniveau samt på ordniveau	Fx grammatisk opmærkning på ordniveau	Reference	annotated language data
begrebsmodel		model der beskriver begreber inden for et bestemt emneområde eller anvendelseskontekst og disse begrebers indbyrdes relationer		Reference	concept model
BLARK	grundlæggende sprogressource-samling	samling af grundlæggende sprogressourcer der er nødvendige for at udvikle sprogteknologi for et givet sprog		Reference	basic language resource kit
data statement		metadata om et datasæts oprindelse, der har til formål at synliggøre bias i datasættet	Der er bl.a. tale om demografiske oplysninger om bidragsydere og dataindsamlere og om hvordan, datasættet er indsamlet.	Reference	data statement
datasæt	datasamling	samling af data, udgivet eller kurateret af en enkelt kilde og som er til råde for adgang til eller download af i en eller flere repræsentationer	Kurateret dækker her over udvælgelse og organisering.	Reference	dataset
digital assistent	virtuel personlig assistent	it-løsning som kan assistere og interagere med mennesker på en menneskelig måde	Fx chatbot	Reference	digital assistant
dyb læring	dyblæring	maskinlæringsalgorithmer som har flere forskellige lag, som analyserer forskellige dele af inputs og involverer usuperviserede eller superviserede læringsmetoder.	Fx neurale netværk	Reference	deep learning
emneklassifikation		opdeling af en given genstandsmængde i klasser ud fra deres emnemæssige tilhørsforhold.	Emnebaseret kategorisering af ressourcer, fx klassificering af borger/kunde-henvendelser ift. hvilken afdeling der skal håndtere dem, inddeling af ressourcer ift. videnskabelig disciplin eller opmærkning af sager med typeinformation.	Reference	subject classification
finjustering		videre træning af en prætrænet sprogmodel til specifik brug	Fx træning på domæne specifikke data, så modellen opnår bedre performance inden for det domæne	Reference	finetuning
fonem		sproglyd med betydningsadskillende funktion	Alfabetet bygger i princippet på fonemer således, at hvert bogstav i princippet skulle repræsentere et fonem. Der er dog mange afvigelser fra det princip, fx udtrykkes a med forskellige fonemer i har og hat.	Reference	phoneme
fonetik		læren om sprogets lydlige side		Reference	phonetics
generativ kunstig intelligens		programmer, der udnytter store datamængder sammen med maskinlæringsteknikker til at producere indhold, baseret på input fra brugerne kaldet prompts	ChatGPT er en generativ kunstig intelligens, hvor brugeren af værktøjet kan få værktøjet til at udføre forskellige opgaver vi prompts.	Reference	generative AI
glosar		ordbog der indeholder betegnelser fra et eller flere domæner eller emneområder sammen med oversættelser til et eller flere sprog		Reference	glossary
grundmodel	fundamentsmodel; basismodel,	sprogmodel der besidder generel sprogforståelse som ikke er finjusteret til et specifikt formål		Reference	foundation model
ikke-superviseret læring	overfladeorienteret læring	maskinlæring som opnås gennem træning på rådata	Står i modsætning til dyb læring (supervised learning)	Reference	unsupervised learning
knowledge graph	vidensgraf	struktureret vidensrepræsentation i form a en graf over entiteter og relationer mellem dem	Grafen kan reprænseteres textuelt som tripler bestående af enititet, relation, entitet eller visuelt som noder og forbindelser i et netværk	Reference	knowledge graph
korpus		samling af tekst eller tale		The META-SHARE Metadata Schema	corpus
kunstig intelligens	AI; KI	computerprogrammer og maskiner, som efterligner et eller flere aspekter af den menneskelige intelligens.	Det gælder evnen til abstrakt tænkning, analyse, problemløsning, mønstergenkendelse, sprogbeherskelse og -forståelse, fornuftig handling og lignende. Computerprogrammer der spiller skak, planlægger ruter eller laver talegenkendelse er eksempler herpå.	Reference	artificial intelligence
leksikalsk ressource		sprogressource som repræsenterer leksikalsk eller begrebsmæssig viden	Fx ordbøger eller termdatabaser	The META-SHARE Metadata Schema	lexical resource
LLM	stor sprogmodel	sprogmodel med højt antal parametre og trænet på et stort træningsdatasæt	Højt antal parametre skal ses relativt ift. den teknologiske udvikling	Reference	large language model
maskinlæring		proces der bruger algoritmer, der muliggør læring fra eksisterende data for at forudsige fremtidige resultater		Reference	machine learning
maskinoversættelse		oversættelse fra et sprog til et andet foretaget af en computer		Reference	machine translation
monolingval		som vedrører, er skrevet på eller foregår på ét sprog		Reference	monolingual
multimodal model		model med inbygget kapabilitet til at processere data i mindst to modaliteter	Fx Dall-E modellen, som kan genere billeder på baggrund af prompts skrevet i naturligt sprog. Almindelige modaliteter er fx tekst, billede, lyd, video	Reference	multimodal model
natursprog	naturligt sprog	naturligt opstået sprog der anvendes af mennesker til at kommunikere med hinanden	Fx dansk, tegnsprog	Reference	natural language
natursprogsbehandling	NLP	automatisk datalogisk behandling af naturligt sprog		Towards Datascience: Natural Language Processing - NLP - for Machine Learning	natural language processing
navnegenkendelse	entitetsgenkendelse; NER	identifikation og klassifikation af entiteter i løbende tekst på baggrund af predefinerede kategorier	Kan fx være navne, steder, lovgivning, handlinger, sygdomme, medicin eller deslignende	Reference	named entity recognition
nøgleordsanalyse	keywordanalyse	identifikation af de væsentligste indholdsord i en tekst ved statistisk analyse		Reference	keyword detection
ontologi		formel beskrivelse af begreber og sammenhænge inden for et bestemt område		Reference	ontology
ordbog		leksikalsk opslagsværk der indeholder oplysninger om ord og deres sproglige form og indhold, fx stavning, ordklasse, bøjning, udtale, betydning, brug, synonymer og historie i et sprog eller om ordenes oversættelse til et andet sprog		Reference	dictionary
oversættelseshukommelse		database hvor sætninger og deres oversættelse er lagret parvis		Reference	translation memory
parallelkorpus		korpus bestående af tekster på et sprog som sammenkobles med oversættelser til et andet sprog		Reference	parallel corpus
prætræning		ikke-superviseret træning af en grundmodel på uannoterede sprogdata så den opnår generel sprogforståelse, med henblik på at finjustere den videre		Reference	pretraining
RAG	retrieval augmented generation	metode til generativ kunstig intelligens, hvor en sprogmodel gør brug af en vidensdatabase uden for træningsdatasættet, som sprogmodellen skal referere fra		Reference	retrieval augmented generation
referencekorpus		korpus der udgør en antaget repræsentativ stikprøve af sproget		Reference	reference corpus
semantisk søgning		søgning der forsøger at finde resultatet baseret på betydningen af forespørgslen fremfor at matche en eksakt søgestreng		Reference	semantic search
spontantale		tale der ikke er planlagt eller nedskrevet på forhånd		Reference	spontaneous speech
sprogdata		data bestående af lagret tekst eller tale	Fx avisartikler, sms'er, manualer, optagelser af samtaler, oplæste tekster	Reference	language data
sprogforståelse		uddragelse af betydning fra tekst eller tale i naturligt sprog		Reference	natural language understanding
sprogmodel		statistisk model over ord og ordsammensætningers hyppigheder på et givet sprog	Sprogmodel er et bredt begreb som dækker de mange forskellige typer af sprogmodeller, hvad enten der er store, små, grundmodel, talemodel osv.	Reference	language model
sprogressource		ressource som kan anvendes til at løse en sprogrelateret opgave	Dette er et bredt begreb der dækker alt fra ordbørger og grammatikker til sprogdatasæt og korpora til sprogmodeller og suppertværktøjer m.m. Alt hvad der katalogiseres på sprogteknolgi.dk er fx sprogressourcer.	Reference	language resource
sprogteknologi		teknologi der anvendes til at få computere til at bearbejde tekster eller udsagn på almindeligt, menneskeligt sprog	Dvs. teknologier, der kan analysere, genkende eller producere naturligt sprog.	Reference	language technology
sprogteknologisk infrastrukturkomponent		sprogressource i form af en genbrugelig komponent med et bestemt sprogteknologisk anvendelsesformål		Reference	language technology infrastructure component
sprogteknologisk softwareløsning		sprogressource i form af en endelig sprogløsning der er målrettet slutbrugeren	Fx en talegenkender eller en chatrobot	Reference	language software solution
sprogteknologisk supportværktøj		værktøj, der understøtter indsamling og forarbejdning af sprogdata	Fx anonymisering, opmærkning eller analyse af indsamlet data	Reference	language support tool
sentimentanalyse	stemningsanalyse	analyse af det emotionelle indhold i tekst og tale		Reference	sentiment analysis
tale-til-tekst-løsning	talegenkendelses-løsning	løsning som er i stand til at registrere menneskelig tale og genkende de sagte ord		Reference	speech-to-text service
talegenkendelse		automatisk genkendelse og omsætning til maskin-læsbar skrift af sproglyde i sammenhængende tale	Man konverterer typisk tale til skreven tekst.	Reference	speech recognition
talesyntese		frembringelse af kunstig tale vha. elektronisk og elektro-akustisk teknik	Man konverterer typisk skreven tekst til tale.	Reference	speech synthesis
taleteknologi		computerteknologi der anvendes til talegenkendelse og/eller talesyntese		Reference	speech technology
tekst-til-tale-løsning	talesynteseløsning	løsning som sætter en computer i stand til at efterligne et talende menneske		Reference	text-to-speech service
tekstanalyse		analyse af tekst med henblik på at forstå dennes indhold	Formålet kan fx være at emneklassificere teksten, udtrække et resumé eller stemningsanalyse.	Reference	text analysis
tekstforslag	tekstforudsigelse	funktion hvor et system giver forslag til, hvilket ord eller tekststykke brugeren ønsker at skrive	Anvendes fx i tastaturprogrammer til mobiltelefoner og i oversættelseshukommelser.	Reference	predictive text
tekstresumering	tekstsammenfatning	processen hvorved der skabes en kort oversigt over hovedtræk i fx en sag, noget sagt eller noget skrevet		Reference	text summarization
term	fagudtryk	ord eller udtryk med en fastlagt teknisk definition, brugt som betegnelse for et fagligt begreb		Reference	term
termbase	termbank	database over fagord og deres betydning og anvendelse		Reference	term base
termekstraktion	termudtræk	identifikation og ekstraktion af termer fra løbende tekst		Reference	term extraction
token		mindre tekstenhed bstående af en sekvens af tegn der udgør en semantisk enhed	Tokens er oftest (i hvert fald på dansk eller engelsk) det samme som ord, men det kan variere ift, hvilke betydningsenheder man ønsker at arbejde med	Reference	token
tokeniser	tokeniseringsprogram; ordidentifikation	program der forbereder en tekst til videre behandling ved at identificere tegnsekvenser som tokens	Tokens er ofte ord, men det afhænger af hvad der er behov for i den videre behandling	Reference	tokenizer
transskription		tekstuel gengivelse af udtalte ord eller sammenhængende tale	Transskription kan i andre sammenhænge også bruges generelt om overførsel fra ét tegnsystem til et andet.	Reference	transcription
vidensmodellering	videnmodellering	udvikling af begrebsmodeller for et bestemt fagområde		Reference	knowlegde modeling