Det Danske Sprog- og Litteraturselskab har udviklet et datasæt til evaluering af sprogmodeller på dansk. Datasættet indeholder samlet 1000 danske talemåder og faste udtryk med overførte betydninger baseret på Den Danske Ordbogs samling af faste udtryk med tilhørende definitioner. Til hver af de 1000 talemåder og faste udtryk er der endvidere udarbejdet tre falske definitioner.
Datasættet kan bruges til at teste sprogmodellers præstationer i forbindelse med at udpege korrekte definitioner for danske talemåder og faste udtryk.
Datasættet udgives med en CC-BY licens, hvilket betyder at Det Danske Sprog- og Litteraturselskab skal krediteres ved brug.