Analiza Sentimenta | Vuk Batanović

SentiComments.SR - Skup komentara za analizu sentimenta na srpskom jeziku

Skup podataka SentiComments.SR obuhvata sledeća tri korpusa kratkih tekstova anotiranih za problem analize sentimenta:
Glavni SentiComments.SR korpus, koji sadrži 3490 komentara iz filmskog domena;
Verifikacioni korpus iz filmskog domena, koji sadrži 464 komentara;
Verifikacioni korpus iz književnog domena, koji sadrži 173 komentara.
Šest oznaka sentimenta je korišćeno pri anotaciji: +1, -1, +M, -M, +NS, i -NS, pri čemu dodavanje nastavka ‘s’ na oznaku signalizira prisustvo sarkazma u tekstu. Glavni korpus je zajednički anotiralo dvoje anotatora, te stoga svaki komentar iz ovog korpusa ima jednu jedinstvenu oznaku sentimenta. Verifikacioni korpusu su služili za procenu kvaliteta, efikasnosti i ekonomičnosti sistema za označavanje podataka, zbog čega njihovi komentari imaju odvojene oznake sentimenta zadate od strane šestoro anotatora. Izgradnja ovog skupa podataka je opisana u PLoS ONE radu iz 2020.

Kolekcija filmskih recenzija na srpskom jeziku (SerbMR)

Kolekcija filmskih recenzija na srpskom sastoji se od tri skupa podataka na srpskom koji su sastavljeni za zadatak analize sentimenta:
Prikupljene filmske recenzije na srpskom (ISLRN 252-457-966-231-5) – neizbalansiran skup od 4725 filmskih recenzija na srpskom.
SerbMR-2C – Skup filmskih recenzija na srpskom (2 klase) (ISLRN 016-049-192-514-1) – dvoklasan izbalansiran skup koji sadrži 1682 filmske recenzije sa označenim sentimentom (841 pozitivnu i 841 negativnu).
SerbMR-3C – Skup filmskih recenzija na srpskom (3 klase) (ISLRN 229-533-271-984-0) – troklasan izbalansiran skup koji sadrži 2523 filmske recenzije sa označenim sentimentom (841 pozitivnu, 841 neutralnu i 841 negativnu).
Izgradnja ove kolekcije je opisana u LREC radu iz 2016.