Parafraza

Part-of-speech tag-supported short-text semantic similarity (POST STSS)

POST STSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na vrstama reči. Optimalne vrednosti tih težinskih faktora se određuju inkrementalno, korišćenjem tehnike planinarenja. Jedini resurs vezan za određeni jezik koji je potreban za POST STSS jeste tager za obeležavanje vrste reči (i opciono lematizator), što čini ovu metodu primenjivom na većinu jezika. Više informacija o algoritmu se može pronaći u ComSIS radu iz 2015. POST STSS je implementiran u okviru STSFineGrain paketa.

Language-independent Short-Text Semantic Similarity (LInSTSS)

LInSTSS je metod određivanja semantičke sličnosti kratkih tekstova koji koristi model vreće reči i oslanja se na mere preklapanja nizova znakova i na distribucionalnu semantiku reči. Sličnosti između pojedinačnih reči se ponderuju težinskim faktorima zasnovanim na frekvencijama reči. Pošto ne koristi bilo kakve alate ili resurse vezane za određeni jezik, LInSTSS je lako primenjiv za bilo koji jezik. Više informacija o algoritmu se može pronaći u Decision Support Systems radu iz 2013. LInSTSS je implementiran u okviru STSFineGrain paketa.

Srpski korpus parafraza (paraphrase.sr)

Srpski korpus parafraza – paraphrase.sr (ISLRN 192-200-046-033-9) sadrži 1194 parova rečenica prikupljenih iz novinskih izvora na internetu. Svakom paru rečenica je ručno dodeljena binarna ocena sličnosti koja govori da li su rečenice u paru dovoljno semantički slične da bi se mogle smatrati bliskim parafrazama. Izgradnja ovog korpusa je opisana u TELFOR radu iz 2011. i u Decision Support Systems radu iz 2013.