Skip to main content

word2vec: Danish DSL and Reddit word2vec word embeddings

Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord, der optræder mindre end 5 gange i korpus, er sorteret fra, og der er anvendt "skip-gram" som træningsalgoritme. Modellen "DSL_skipgram_2020.model" er trænet med et korpus på godt en milliard løbende ord med tekster fra 1983 til og med 2019.Modellerne stilles til rådighed i tre formater. ÅBEN-DSL-LICENS:Ressourcen kan frit downloades idet man accepterer en række brugsbetingelser og forpligter sig til at overholde dem. Refereres til ved: "Word2Dict – Lemma Selection and Dictionary Editing Assisted by Word Embeddings" / Nicolai H. Sørensen, Nimb, Sanni, i Proceedings from Euralex 2018, Ljubliana, Slovenia, 2018".

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/b21f8377-82c6-47a8-8d70-93fd4862f613
Destinationsside https://korpus.dsl.dk/resources/details/word2vec.html
Høstes af Datavejviser Ja
Udgivelsesdato 01-01-2019
Seneste ændringsdato
Opdateringsfrekvens ubekendt
Dækningsperiode 01-01-1983  / 
Emne(r)
  • 16.05.07 Sprog og retskrivning
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn
Dokumentation