STSFineGrain – skup modela za određivanje semantičke sličnosti kratkih tekstova

Idi na sajt alata/skupa podataka

STSFineGrain je paket napisan u Javi koji sadrži skup modela za određivanje semantičke sličnosti kratkih tekstova (STS) i zajednički okvir za njihovu evaluaciju na STS korpusima sa fino granuliranim ocenama. Implementirano je sedam različitih STS modela, uključujući tri nenadgledana i četiri nadgledana modela. Među nadgledanim modelima se nalaze kako algoritmi koji su ranije predstavljeni, kao što su LInSTSS i POST STSS, tako i novi POS-TF STSS model koji ih po performansama nadmašuje. Evaluacija se može sprovesti bilo na celim skupovima podataka, bilo putem unakrsne validacije na njima. STSFineGrain trenutno podržava POST STSS i POS-TF STSS modele za tekstove na srpskom i na engleskom. Za druge modele ne postoje takva jezička ograničenja. Ovaj paket je predstavljen u LREC radu iz 2018.