-
10.000 mest frekvente lemmaer
Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca.... -
word2vec: Danish DSL and Reddit word2vec word embeddings
Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord,...