Morfologija

Serbian AutoRIA - model za automatizovanje RIA postupka na srpskom jeziku

Rapid Integrated Assessment (RIA) je postupak evaluacije nacionalnih strateških dokumenata koji je razvio UNDP da bi pomogao državama da procene koliko su spremne za implementaciju ciljeva održivog razvoja (Sustainable Development Goals - SDG) koje su zadale UN. Kreirani model automatizuje RIA proceduru za dokumente napisane na srpskom i zasnovan je na ranijem IBM-ovom pristupu koji je razvijen za engleski. Model radi tako što u dokumentima traži rečenice / pasuse koji se semantički poklapaju sa nekim od SDG podciljeva. Repozitorijum modela takođe sadrži nacionalne strateške dokumente za Srbiju, kao i njihove stemovane varijante. Više informacija se može pronaći u LT4All radu iz 2019.

SETimes.SR referentni trening korpus srpskog jezika

SETimes.SR referentni trening korpus srpskog jezika se sastoji iz 87 hiljada tokena ili skoro četiri hiljade rečenica na srpskom, prikupljenih sa (sada ugašenog) Southeast European Times novinskog portala. Svaka novinska vest je tretirana kao zasebni dokument i podeljena je na rečenice i tokene. Ceo korpus je anotiran na nivou lema i vrsta reči, morfosintakse, sintaktičkih zavisnosti i imenovanih entiteta. Izgradnja ovog korpusa je opisana u JT-DH radu iz 2018.

SCStemmers – Skup stemera za srpski i hrvatski

SCStemmers je paket koji sadrži četiri algoritma za stemovanje tekstova na srpskom i hrvatskom:
– Pohlepan i optimalan stemer za srpski zasnovan na obuhvatanju sufiksa, autori: Vlado Kešelj i Danko Šipka,
– Unapređenje njihovog pohlepnog stemera za srpski, autor: Nikola Milošević,
– Stemer za hrvatski, autori: Nikola Ljubešić i Ivan Pandžić.
SCStemmers se može koristiti bilo kao samostalan alat bilo kao plug-in za Weku. Paket je predstavljen u LREC radu iz 2016.