Lema

SETimes.SR referentni trening korpus srpskog jezika

SETimes.SR referentni trening korpus srpskog jezika se sastoji iz 87 hiljada tokena ili skoro četiri hiljade rečenica na srpskom, prikupljenih sa (sada ugašenog) Southeast European Times novinskog portala. Svaka novinska vest je tretirana kao zasebni dokument i podeljena je na rečenice i tokene. Ceo korpus je anotiran na nivou lema i vrsta reči, morfosintakse, sintaktičkih zavisnosti i imenovanih entiteta. Izgradnja ovog korpusa je opisana u JT-DH radu iz 2018.